Когда я пытаюсь извлечь текст из своих файлов PDF, кажется, что пробелы между несколькими словами вставляются случайным образом.
Я использую pdfbox-app-1.6.0.jar (последняя версия) в следующем образце файла в разделе «Загрузки» на этой странице: http://www.sheffield.gov.uk/ дороги / дети / родители / 6-11 / обучение пешеходов
Я пробовал работать с несколькими другими файлами PDF, и похоже, что на нескольких страницах происходит то же самое.
Я делаю следующее:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~ / Desktop / ped training pdf.pdf
в загруженном файле, и вы увидите пробелы в в результате на консоли неправильно вставлено следующее: "• Если дети могут безопасно ходить в школу, это может уменьшить заторы."
"• Развивается
«www.sheff ield.gov.uk»
«Думай вперед!», который основан на «
и т. д. и т. д.»
Как вы можете видеть несколько в словах выше есть пробелы по непонятной причине.
Я использую Ubuntu и использую Sun JDK 1.6.
Я пробовал это на нескольких разных PDF-файлах и пытался найти решение на форумах, были похожие ошибки, но все, казалось, были решены.
Любая помощь или если у кого-то еще есть такая же проблема, прокомментируйте. Это вызывает большие проблемы с правильной индексацией контента для поиска.