Последние несколько часов я боролся с Google и ограниченной документацией PDFMiner, и хотя я чувствую себя близким, я просто не получаю то, что мне нужно. . Я проработал http://www.unixuser.org/~euske/python/pdfminer/ и все три видеоролика YouTube, чтобы лучше понять PDF-файлы, и я могу выводить необработанные текст в порядке.
Я работаю над сценарием для анализа нескольких страниц PDF. К сожалению, в этом проекте я имею дело с файлами PDF низкого качества, и единственная надежная константа, которую я вижу, - это точное физическое расположение текстовых строк. Хотя я читал намеки на то, что текстовые строки можно извлекать с помощью физических координат, мне еще предстоит увидеть рабочий пример.
Есть ли кто-нибудь, кто мог бы пролить свет на то, как это делается с помощью PDFMiner? Я открыт для других модулей, если есть очевидный лучший выбор, однако мне нужно придерживаться Python для сценария.
Кроме того, я тоже безуспешно пробовал PyPdf (кроме базового вывода текста).
Спасибо!