Возврат текстовой строки из физических координат в PDF с помощью Python

Последние несколько часов я боролся с Google и ограниченной документацией PDFMiner, и хотя я чувствую себя близким, я просто не получаю то, что мне нужно. . Я проработал http://www.unixuser.org/~euske/python/pdfminer/ и все три видеоролика YouTube, чтобы лучше понять PDF-файлы, и я могу выводить необработанные текст в порядке.

Я работаю над сценарием для анализа нескольких страниц PDF. К сожалению, в этом проекте я имею дело с файлами PDF низкого качества, и единственная надежная константа, которую я вижу, - это точное физическое расположение текстовых строк. Хотя я читал намеки на то, что текстовые строки можно извлекать с помощью физических координат, мне еще предстоит увидеть рабочий пример.

Есть ли кто-нибудь, кто мог бы пролить свет на то, как это делается с помощью PDFMiner? Я открыт для других модулей, если есть очевидный лучший выбор, однако мне нужно придерживаться Python для сценария.

Кроме того, я тоже безуспешно пробовал PyPdf (кроме базового вывода текста).

Спасибо!

5
задан user1145643 18 February 2012 в 18:11
поделиться