Текст извлечения от PDF

У меня есть набор файлов PDF, которые я должен преобразовать в TXT. К сожалению, когда я использую одну из многих доступных утилит, чтобы сделать это, она теряет все форматирование, и все сведенные в таблицу данные в PDF смешаны. Действительно ли возможно использовать Python для извлечения текста из PDF путем определения постионов и т.д.?

Спасибо.

7
задан Abhinav Sarkar 30 June 2010 в 11:40
поделиться

1 ответ

PDF-файлы не содержат табличных данных, если они не содержат структурированного содержимого. Некоторые инструменты включают эвристику, чтобы попытаться угадать структуру данных и вернуть ее. Я написал статью в блоге, объясняющую проблемы с извлечением текста PDF, на http://www.jpedal.org/PDFblog/2009/04/pdf-text/

3
ответ дан 7 December 2019 в 09:56
поделиться
Другие вопросы по тегам:

Похожие вопросы: