PDF и текстовый слой

Согласно этому сайтуhttp://www.searchable-pdf.com/content.php?lang=en&c=61, PDF-файл может быть доступен для поиска при добавлении текстового слоя.

Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить в PDF двумя способами :a )в качестве текстового слоя над слоем изображения (, как описано на веб-странице выше )b )когда вы создаете PDF-файл из документа Word (с текстом ), я не думаю, что Word сохранит весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Верно?

Начиная с PDF 1.4, был добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform).. Но что такое XMP? Это тот «текстовый слой», о котором я говорил выше?

Если сканер выполняет распознавание изображения на изображении, сохраняет ли он текст в «текстовом слое»? Или поле "XMP"? Это может быть только тогда, когда PDF версии 1.4?

И как я могу определить, есть ли в PDF уже текстовые данные? Например, :PDF A был отсканирован с помощью OCR, а PDF B — нет. Как я могу узнать, что PDF B должен быть отправлен в отдельный модуль OCR?

10
задан Jochen Hebbrecht 10 July 2012 в 11:57
поделиться