Усовершенствованный Парсинг PDF Используя Python (извлекающий текст без таблиц, и т.д.): какова Лучшая Библиотека? [закрытый]

Я использовал Визуальный, Помогают X в течение почти двух лет теперь, и я нахожу его столь полезным, что я могу честно сказать, что, если бы мой работодатель не обеспечил его, я должен был бы заплатить за него сам.
я также использую Прохладные Команды и SlickEdit (бесплатная версия), чьи инструменты File Explorer и Command Spy довольно полезны.

81
задан N.N. 28 September 2011 в 20:53
поделиться

2 ответа

Вы также можете взглянуть на PDFMiner (или для более старых версий Python см. PDFMiner ).

Особенность, представляющая интерес в PDFMiner заключается в том, что вы можете контролировать, как он перегруппирует текстовые части при их извлечении. Вы делаете это, указывая промежуток между строками, словами, символами и т. Д. Итак, возможно, настроив это, вы сможете достичь того, чего хотите (это зависит от изменчивости ваших документов). PDFMiner также может предоставить вам местоположение текста на странице, он может извлекать данные по идентификатору объекта и другим вещам. Так что копайтесь в PDFMiner и проявляйте изобретательность!

Но вашу проблему действительно нелегко решить, потому что в PDF текст не является непрерывным, а состоит из множества небольших групп символов, расположенных абсолютно на странице. Основное внимание в PDF-формате уделяется сохранению целостности макета. Это'

58
ответ дан 24 November 2019 в 09:43
поделиться

Эту проблему сложно решить, поскольку визуально похожие файлы PDF могут иметь совершенно разную структуру в зависимости от того, как они были созданы. В худшем случае библиотека должна будет действовать как OCR. С другой стороны, PDF-файл может содержать достаточную структуру и метаданные для легкого удаления таблиц и рисунков, которые библиотека может быть адаптирована для использования в своих интересах.

Я почти уверен, что нет инструментов с открытым исходным кодом, которые решают вашу проблему для широкого спектра PDF-файлов, но я помню, что слышал о коммерческом программном обеспечении, которое заявляло, что делает именно то, что вы просите. Я уверен, что вы столкнетесь с ними при поиске в Google.

0
ответ дан 24 November 2019 в 09:43
поделиться
Другие вопросы по тегам:

Похожие вопросы: