Извлечение изображений и слов с координатами и размерами из PDF

Я много читал об извлечениях PDF и библиотеках (как iText), но я просто не нашел решения для извлечения изображений и текста (с координатами) из PDF .

Задача - отсканировать PDF с каталогом товаров и извлечь каждое изображение. Рядом с каждым изображением напечатан код изображения , а также список кодов продукта для продуктов, которые показаны на изображении.

Я знаю, что нет способа извлечь структурированную информацию из PDF-файла, подобного этому, но с координатами всех изображений и текстовых объектов я мог бы написать код для идентификации связанного текста по его расстоянию от изображения. Затем я мог бы разделить текст с помощью RegExp и узнать, что такое код продукта , что такое код изображения и т. Д.

Не могли бы вы порекомендовать хорошее и рабочее решение для этой задачи ?

8
задан Bobrovsky 24 November 2011 в 15:52
поделиться