PDFBox добавляет пробелы в слова

Когда я пытаюсь извлечь текст из своих файлов PDF, кажется, что пробелы между несколькими словами вставляются случайным образом.

Я использую pdfbox-app-1.6.0.jar (последняя версия) в следующем образце файла в разделе «Загрузки» на этой странице: http://www.sheffield.gov.uk/ дороги / дети / родители / 6-11 / обучение пешеходов

Я пробовал работать с несколькими другими файлами PDF, и похоже, что на нескольких страницах происходит то же самое.

Я делаю следующее:

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console ~ / Desktop / ped training pdf.pdf

в загруженном файле, и вы увидите пробелы в в результате на консоли неправильно вставлено следующее: "• Если дети могут безопасно ходить в школу, это может уменьшить заторы."

"• Развивается

«www.sheff ield.gov.uk»

«Думай вперед!», который основан на «

и т. д. и т. д.»

Как вы можете видеть несколько в словах выше есть пробелы по непонятной причине.

Я использую Ubuntu и использую Sun JDK 1.6.

Я пробовал это на нескольких разных PDF-файлах и пытался найти решение на форумах, были похожие ошибки, но все, казалось, были решены.

Любая помощь или если у кого-то еще есть такая же проблема, прокомментируйте. Это вызывает большие проблемы с правильной индексацией контента для поиска.

12
задан Ravish Bhagdev 31 October 2011 в 14:06
поделиться