Текст Copy+pasting от PDF приводит к мусору

Я пишу Магистерскую диссертацию - система обработки естественного языка. У меня есть один компонент - экстрактор.

Это извлекает простой текст из файлов PDF. Существует несколько файлов PDF, которые не могут быть извлечены правильно. Экстрактор (библиотека PDFBox) возвращает строку как это:

"┤xDn║if|d├gDF" Ti&cD╬lh d FÁhis~n ╗xd f «"d┤ffih» h"

или

"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"

Я проверял каждый файл, который делает проблему этого извлечения, и текст всех этих файлов также не может быть вставлен копией от Читателя PDF (Adobe Reader и читатель FoxIt). Просмотр их в этом, которое включают читателям, но после выбора его содержания и копирования к буферу обмена я получаю тот же неправильный текст (как описано выше - строки не семантически корректные символы или строки цифр и букв).

Кто-либо мог помочь мне???

12
задан Kurt Pfeifle 13 April 2015 в 16:51
поделиться

3 ответа

Если вы можете успешно выделить и скопировать текст в Adobe Reader - указано, что PDF-файл действительно содержит текстовые объекты - но вы не можете вставить скопированный текст в Блокнот, если он не будет выглядеть как набор символов мусора, тогда проблема, вероятно, связана с CMap, который использует выбранный текст.

Спецификация PDF предоставляет множество опций для отображения текстового содержимого и соответствующего извлечения текстового содержимого . CMap определяет сопоставление кодов символов с селекторами символов. Спецификация PDF описывает некоторые предопределенные CMap, но другие CMap также могут быть встроены.

Я предполагаю, что либо CMap для этого текста поврежден, либо библиотека PDFBox не поддерживает этот конкретный CMap. Я предлагаю попробовать другой SDK, чтобы посмотреть, получите ли вы другие результаты.

6
ответ дан 2 December 2019 в 22:04
поделиться

PDF не является текстовым документом. Это скорее векторный графический формат, который иногда может содержать текст. Итак, есть некоторые документы, из которых вы не можете извлечь текст, если не хотите использовать OCR. Просто так оно и есть.

-3
ответ дан 2 December 2019 в 22:04
поделиться

С помощью чего был создан PDF-файл. Некоторые PDF-файлы не содержат никакой информации о кодировке, только данные для ее рисования. Так что нет возможности извлечь данные.

1
ответ дан 2 December 2019 в 22:04
поделиться
Другие вопросы по тегам:

Похожие вопросы: