Как извлечь поля PDF из заполненной формы в Python?

Названия таблиц всегда должны быть сингулярными, поскольку они представляют собой набор объектов. Как вы говорите, стадо назначать группу овец, или стадо обозначают группу птиц. Нет необходимости во множественном числе. Когда имя таблицы представляет собой состав из двух имен, а соглашение об именах во множественном числе, становится трудно узнать, должно ли имя множественного числа быть первым словом или вторым словом или и тем, и другим. Это логика - Object.instance, а не object.instance. Или TableName.column, а не TableNames.column (s). Microsoft SQL не чувствителен к регистру, легче читать имена таблиц, если используются буквы верхнего регистра, для разделения имен таблиц или столбцов, когда они состоят из двух или более имен.

37
задан Jason Sundram 31 January 2012 в 06:50
поделиться

1 ответ

Обновление (2019) на ответе Steven: Я нашел, что эти doc.catalog['AcroForm'] подход не работает на все случаи заполненных форм PDF, которые я имел, но был альтернативный метод доступа к именам полей, значениям и координатам после вызова PDFPageInterpreter от pdfminer, как детализировано здесь .

я не буду включать код как не, мои, но полезные части были в _build_annotations и load функции на связанном сайте выше.

Протестированный с Python 3.7 и pdfminer.six .

0
ответ дан 9 October 2019 в 23:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: