Я использую ABCpdf для извлечения текстового содержимого некоторых файлов PDF, в частности, путем вызова Doc. GetText («Текст»). (Вы вызываете его в цикле, один раз на страницу.) Обычно это работает хорошо, но для некоторых файлов PDF результирующий текст состоит из текста с нехваткой пробелов, например
В этом предложении не должно быть пробелов между словами.
Что интересно, если я пытаюсь извлечь текст из одних и тех же PDF-файлов с помощью Apache Tika (работающего под капотом PDFBox), я, как правило, получаю все ожидаемые пробелы между словами. То есть вышеприведенное предложение будет передано Тикой как
В этом предложении нет пробелов между словами.
В целом, два инструмента действуют так, как будто они боятся совершения разных ошибок: ABCpdf действует так, как будто худшее в мире - это вставить пространство, которому не место, а Тика действует как худшее в мире. мир не смог бы вставить место, где он действительно находится.
Есть ли какие-то настройки, чтобы ABCpdf в этом отношении действовал как Tika?