Java - PDFBox - извлечение текста

Я использовал pdfbox для извлечения информации о тексте от PDFs. Я успешно проанализировал все свойства текста, такие как имя шрифта, fontface, размер, положение и т.д.

ПРОБЛЕМА: Я использую pdfbox1.2.1 (последняя версия). getCharacter () в классе TextPosition возвращает полную строку кроме последнего знака. Последний знак анализируется как отдельная строка.

Исключая: "Как Вы", анализируется как, "Как эй" и "u" (2 отдельных строки).

Я не хочу, чтобы это произошло тот путь..

Кто-либо приехал через это?.. Я делаю что-то не так??.. Ожидание ответа..

Спасибо и наилучшие пожелания, Magggi

5
задан Adam Paynter 28 July 2010 в 14:21
поделиться