Один из самых расстраивающих для меня был, когда алгоритм был неправильным в спецификации программного обеспечения.
Отсканированные изображения, преобразованные в PDF, которые впоследствии были подвергнуты оптическому распознаванию текста, чтобы сделать текст с возможностью поиска обычно содержат текстовые части, отображаемые как «невидимые». Таким образом, то, что вы видите на экране (или на бумаге при печати), остается исходным изображением. Но когда вы успешно выполняете поиск , вы выделяете совпадения, которые находятся в невидимом тексте.
Я бы порекомендовал вам взглянуть на инструменты командной строки, производные от XPDF pdffonts (.exe)
, pdfinfo (.exe)
и pdftotext (.exe)
. См. Загрузки здесь: http://www.foolabs.com/xpdf/download.html
Пример использования pdffonts
:
C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
В этом PDF-файле используются шрифты (обозначенные 'именем 'column), они встроены (обозначено "yes" в столбце "emb") и использует подмножество шрифтов (обозначено "yes" в столбце "sub").
C:\downloads\> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
В этом PDF-файле используются 2 шрифта (обозначены столбцом «имя»). Шрифт Universe-BlackOblique встроен полностью (на это указывает «да» в столбце «emb» и «нет» в столбце «sub»). Шрифт Arial также используется, но не встроен.
C:\downloads\> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
В этом PDF-файле не используется ни одного шрифта, и, следовательно, в него не встроен текст (то есть нет и OCR).
Пример использования pdftotext
:
C:\downloads\> pdftotext ^
-layout ^
cisco-ip-phone-7911-guide6.1.pdf ^
cisco-ip-phone-7911-guide6.1.txt
Это позволит извлечь все текстовые строки из PDF (пытаясь сохранить некоторое сходство с исходным макетом). Если в PDF-файле нет текста, значит, нет OCR ...
Различные инструменты PDF могут сказать вам, есть ли текст. Некоторые из них доступны как элементы управления COM, а может быть, даже как собственные элементы .NET.
pdfspy Apago's извлекает информацию из PDF в XML файл. Он включает информацию о документе, в том числе изображения и текст. Для вашего проекта полезная информация включает количество и размер изображений, а также информацию о том, где находится OCR (скрытый) текст.
Откройте документ в акробате. Перейдите в Файл -> Свойства. Загляните в раздел «Дополнительно» и найдите PDF Producer. Если он читает что-то вроде «Paper Capture ...», значит, он был опознан.
Надеюсь, это поможет.