У меня есть набор файлов PDF, которые я должен преобразовать в TXT. К сожалению, когда я использую одну из многих доступных утилит, чтобы сделать это, она теряет все форматирование, и все сведенные в таблицу данные в PDF смешаны. Действительно ли возможно использовать Python для извлечения текста из PDF путем определения постионов и т.д.?
Спасибо.
PDF-файлы не содержат табличных данных, если они не содержат структурированного содержимого. Некоторые инструменты включают эвристику, чтобы попытаться угадать структуру данных и вернуть ее. Я написал статью в блоге, объясняющую проблемы с извлечением текста PDF, на http://www.jpedal.org/PDFblog/2009/04/pdf-text/