Как знать, содержит ли PDF только изображения или был OCR, просканированным для поиска?

Один из самых расстраивающих для меня был, когда алгоритм был неправильным в спецификации программного обеспечения.

23
задан Bratch 28 September 2009 в 22:45
поделиться

4 ответа

Отсканированные изображения, преобразованные в PDF, которые впоследствии были подвергнуты оптическому распознаванию текста, чтобы сделать текст с возможностью поиска обычно содержат текстовые части, отображаемые как «невидимые». Таким образом, то, что вы видите на экране (или на бумаге при печати), остается исходным изображением. Но когда вы успешно выполняете поиск , вы выделяете совпадения, которые находятся в невидимом тексте.

Я бы порекомендовал вам взглянуть на инструменты командной строки, производные от XPDF pdffonts (.exe) , pdfinfo (.exe) и pdftotext (.exe) . См. Загрузки здесь: http://www.foolabs.com/xpdf/download.html

Пример использования pdffonts :

C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

В этом PDF-файле используются шрифты (обозначенные 'именем 'column), они встроены (обозначено "yes" в столбце "emb") и использует подмножество шрифтов (обозначено "yes" в столбце "sub").

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

В этом PDF-файле используются 2 шрифта (обозначены столбцом «имя»). Шрифт Universe-BlackOblique встроен полностью (на это указывает «да» в столбце «emb» и «нет» в столбце «sub»). Шрифт Arial также используется, но не встроен.

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

В этом PDF-файле не используется ни одного шрифта, и, следовательно, в него не встроен текст (то есть нет и OCR).

Пример использования pdftotext :

C:\downloads\> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

Это позволит извлечь все текстовые строки из PDF (пытаясь сохранить некоторое сходство с исходным макетом). Если в PDF-файле нет текста, значит, нет OCR ...

24
ответ дан 29 November 2019 в 02:54
поделиться

Различные инструменты PDF могут сказать вам, есть ли текст. Некоторые из них доступны как элементы управления COM, а может быть, даже как собственные элементы .NET.

2
ответ дан 29 November 2019 в 02:54
поделиться

pdfspy Apago's извлекает информацию из PDF в XML файл. Он включает информацию о документе, в том числе изображения и текст. Для вашего проекта полезная информация включает количество и размер изображений, а также информацию о том, где находится OCR (скрытый) текст.

http://www.apagoinc.com/pdfspy

0
ответ дан 29 November 2019 в 02:54
поделиться

Откройте документ в акробате. Перейдите в Файл -> Свойства. Загляните в раздел «Дополнительно» и найдите PDF Producer. Если он читает что-то вроде «Paper Capture ...», значит, он был опознан.

Надеюсь, это поможет.

1
ответ дан 29 November 2019 в 02:54
поделиться
Другие вопросы по тегам:

Похожие вопросы: