Могу ли я запретить ABCpdf смешивать слова вместе (например, mashingwordstogether) при преобразовании PDF в текст?

Я использую ABCpdf для извлечения текстового содержимого некоторых файлов PDF, в частности, путем вызова Doc. GetText («Текст»). (Вы вызываете его в цикле, один раз на страницу.) Обычно это работает хорошо, но для некоторых файлов PDF результирующий текст состоит из текста с нехваткой пробелов, например

В этом предложении не должно быть пробелов между словами.

Что интересно, если я пытаюсь извлечь текст из одних и тех же PDF-файлов с помощью Apache Tika (работающего под капотом PDFBox), я, как правило, получаю все ожидаемые пробелы между словами. То есть вышеприведенное предложение будет передано Тикой как

В этом предложении нет пробелов между словами.

В целом, два инструмента действуют так, как будто они боятся совершения разных ошибок: ABCpdf действует так, как будто худшее в мире - это вставить пространство, которому не место, а Тика действует как худшее в мире. мир не смог бы вставить место, где он действительно находится.

Есть ли какие-то настройки, чтобы ABCpdf в этом отношении действовал как Tika?

5
задан Chris 19 October 2011 в 19:34
поделиться