Извлечение текста PDF на основе правил для различных счетов и счетов-фактур

Мне нужно извлечь текст из счетов и счетов в формате pdf

Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами.

Я прочитал уже несколько десятков статей о формате pdf, о том, как легко его воспринимает наш мозг и как сложно машине понять его структуру.

Также загрузил несколько инструментов, таких как pdfminer от Python и некоторые инструменты для Java, некоторые даже имеют извлечение макета на основе правил, например LA -PDBtext — все это отличные библиотеки, оставляющие вам последний шаг.

У Adobe также есть онлайн-сервис exportPdf, но его нельзя настроить

. В итоге я понимаю, что для того, чтобы извлечь текст из структурированных pdf-файлов и преобразовать его, например, в XML, должен быть некоторый уровень ручной работы.

Я также нашел From Data Extractor , платный инструмент с возможностью установки правил извлечения, который утверждает, что выполняет эту работу, хотя трудно найти подходящее руководство, и он работает только в Windows.

Я подумал, что могу даже попытаться преобразовать эти файлы в изображения и попробовать tesseract -ocr , но решил спросить совета здесь, прежде чем тратить на это больше времени.

Буду очень признателен, если кто-то с таким опытом подскажет.

6
задан llrs 24 March 2016 в 09:35
поделиться