Извлечение таблицы PDF

У меня есть (те же )данные, сохраненные в виде файла изображения GIF и в виде файла PDF, и я хочу преобразовать их в HTML или XML. На самом деле данные — это меню столовой моего университета. Это означает, что каждую неделю необходимо анализировать новую версию файла! В общем, файлы содержат некоторый текст заголовка и нижнего колонтитула, а также таблицу, полную других данных между ними. Я прочитал несколько сообщений в stackoverflow, а также предпринял несколько попыток разобрать данные таблицы как HTML/XML:

PDF

  • PDFBox || iText (Java)
  • Импорт документов Google
  • PDF2HTML || PDF2Table

GIF

  • Tesseract -OCR

Я получил наилучший результат при анализе файла PDF -с помощью PDFBox, но все же (, так как меню меняется еженедельно ), это не так. достаточно надежный. HTML, который я получаю, включает иногда больше, иногда меньше «абзацев» (<p>), так что я не могу достаточно точно проанализировать данные.

Вот почему я хотел бы знать, есть ли другой способ сделать это?

12
задан Brian Tompsett - 汤莱恩 19 May 2017 в 10:44
поделиться