Проверьте, является ли файл PDF просканированным

Что состоит в том, чтобы программно проверить лучший способ, является ли файл PDF полностью просканированным? У меня действительно есть iText и PDFBox в моем распоряжении. Я могу проверить, содержит ли файл PDF текст или нет, и согласно результату, чтобы решить, является ли этот файл OCRed, но это решение не на 100% точно. Я хотел бы знать, существует ли другой способ справиться с проблемой.

Поскольку Вы понимаете, что решением должен быть базирующийся Java.

9
задан Alex 8 March 2010 в 08:43
поделиться

5 ответов

Лучше всего проверить, есть ли в нем текст, а также увидеть, содержит ли оно большое изображение размером с страницу или множество мозаичных изображений, покрывающих страницу. Если вы также проверите метаданные, они должны охватывать большинство вариантов.

3
ответ дан 3 November 2019 в 07:13
поделиться

IMHO вы не можете решить это наверняка. Но вы можете попробовать некоторые вещи, такие как поиск текста, попытка OCR pdf и на основе количества распознанного текста решить, вы можете искать некоторые основные ошибки сканирования, такие как выцветание или поля бумаги/книги.

1
ответ дан 3 November 2019 в 07:13
поделиться

Вы можете проверить, есть ли в PDF-файле ресурсы шрифта (довольно хороший показатель от того, содержит ли документ какие-либо шрифты) с помощью функции HasFontResources в Quick PDF Library Lite - бесплатном компоненте ActiveX, который теоретически можно использовать из Java с помощью надстройки стороннего производителя. .

Проверка ресурсов текста / шрифтов является наиболее точным методом определения того, был ли PDF-файл создан в процессе сканирования. Это вкупе с предложением Марка Стивенса искать изображение большого размера и т. Д.

Но, к сожалению, не существует 100% гарантированно точного метода проверки, был ли отсканирован PDF-файл.

1
ответ дан 3 November 2019 в 07:13
поделиться

Знаете ли вы, как документ был бы отсканирован, если бы он был? Хотя элемент метаданных «Создатель» не является обязательным, он может быть полезной подсказкой, если ваш сканер устанавливает его.

0
ответ дан 3 November 2019 в 07:13
поделиться

Я просто сужу по размеру. Отсканированные документы неоправданно большие. До 1000 страниц мое практическое правило: истинный текст pdf: 1-20 M, отсканированный - от 30 до 100 M.

0
ответ дан 3 November 2019 в 07:13
поделиться
Другие вопросы по тегам:

Похожие вопросы: