Как я могу удалить все изображения / рисунки из файла PDF и оставить текст только на Java?

У меня есть PDF-файл, который выводится процессором OCR, этот процессор OCR rec запоминает изображение, добавляет текст в pdf, но в конце помещает изображение низкого качества вместо исходного (я понятия не имею, зачем кому-то это делать, но они это делают).

Итак, я хотел бы получить этот PDF-файл, удалите поток изображения и оставьте текст в покое, чтобы я мог получить его и импортировать (с помощью функции импорта страницы iText) в PDF-файл, который я создаю сам с реальным изображением.

И прежде чем кто-то спросит, я уже пытались использовать другой инструмент для извлечения текстовых координат (JPedal), но когда я рисую текст в моем PDF-файле, он не находится в той же позиции, что и исходный.

Я бы предпочел, чтобы это было сделано на Java, но если другой инструмент может сделать это лучше, просто дайте мне знать. И это может быть только удаление изображений, я могу жить с PDF-файлом с чертежами.

11
задан Maurício Linhares 26 July 2011 в 14:00
поделиться