Ознакомьтесь с https://wiki.eclipse.org/Eclipse.ini Мне пришлось изменить аргумент vm в моем файле eclipse.ini, и для параметров JRE я выбрал «Использовать JRE по умолчанию ( в настоящее время 'Java SE 8 [1.8.0_172]') ', когда я создавал проект scala. Это исправило эту ошибку для меня.
Я использую OS X, поэтому мне пришлось добавить
-vm
/Library/Java/JavaVirtualMachines/jdk1.8.0_172.jdk/Contents/Home/bin/java
выше -vmargs
Я использую PDFBox с Lucene. Было легко узнать, как это работает, и это делает задание. Это - открытый исходный код и свободный.
Как Вы знаете (я предполагаю), PDF не является форматом текстового файла. Существует много инструментов, которые можно использовать для извлечения текста.
Два примера:
- Xpdf. PdftoText Бесплатный (www.foolabs.com/xpdf/) - командная строка Exe
- Pdflib. Tet (www.pdflib.com) $$$ - библиотека (сеть, Java, com...)