Мне нужно извлечь текст из счетов и счетов в формате pdf
Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами.
Я прочитал уже несколько десятков статей о формате pdf, о том, как легко его воспринимает наш мозг и как сложно машине понять его структуру.
Также загрузил несколько инструментов, таких как pdfminer от Python и некоторые инструменты для Java, некоторые даже имеют извлечение макета на основе правил, например LA -PDBtext — все это отличные библиотеки, оставляющие вам последний шаг.
У Adobe также есть онлайн-сервис exportPdf, но его нельзя настроить
. В итоге я понимаю, что для того, чтобы извлечь текст из структурированных pdf-файлов и преобразовать его, например, в XML, должен быть некоторый уровень ручной работы.
Я также нашел From Data Extractor , платный инструмент с возможностью установки правил извлечения, который утверждает, что выполняет эту работу, хотя трудно найти подходящее руководство, и он работает только в Windows.
Я подумал, что могу даже попытаться преобразовать эти файлы в изображения и попробовать tesseract -ocr , но решил спросить совета здесь, прежде чем тратить на это больше времени.
Буду очень признателен, если кто-то с таким опытом подскажет.