У меня есть (те же )данные, сохраненные в виде файла изображения GIF и в виде файла PDF, и я хочу преобразовать их в HTML или XML. На самом деле данные — это меню столовой моего университета. Это означает, что каждую неделю необходимо анализировать новую версию файла! В общем, файлы содержат некоторый текст заголовка и нижнего колонтитула, а также таблицу, полную других данных между ними. Я прочитал несколько сообщений в stackoverflow, а также предпринял несколько попыток разобрать данные таблицы как HTML/XML:
GIF
Я получил наилучший результат при анализе файла PDF -с помощью PDFBox, но все же (, так как меню меняется еженедельно ), это не так. достаточно надежный. HTML, который я получаю, включает иногда больше, иногда меньше «абзацев» (<p>
), так что я не могу достаточно точно проанализировать данные.
Вот почему я хотел бы знать, есть ли другой способ сделать это?