Текст извлечения от PDF

Question

Текст извлечения от PDF

У меня есть набор файлов PDF, которые я должен преобразовать в TXT. К сожалению, когда я использую одну из многих доступных утилит, чтобы сделать это, она теряет все форматирование, и все сведенные в таблицу данные в PDF смешаны. Действительно ли возможно использовать Python для извлечения текста из PDF путем определения постионов и т.д.?

Спасибо.

7

python pdf

задан Abhinav Sarkar 30 June 2010 в 11:40

1 ответ

Другие вопросы по тегам:

python pdf

Похожие вопросы:

score 3 · Accepted Answer

PDF-файлы не содержат табличных данных, если они не содержат структурированного содержимого. Некоторые инструменты включают эвристику, чтобы попытаться угадать структуру данных и вернуть ее. Я написал статью в блоге, объясняющую проблемы с извлечением текста PDF, на http://www.jpedal.org/PDFblog/2009/04/pdf-text/