как я могу обнаружить веб-страницы на языке фарси с помощью tika?

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на языке фарси с помощью apache tika toolkit.

 LanguageIdentifier identifier = new LanguageIdentifier("فارسی");
        String language = identifier.getLanguage();

Я скачал jar-файлы apache.tika и добавил их в classpath. но этот код выдает ошибку для языка фарси, но работает для английского. Как я могу добавить фарси в пакет languageIdentifier в tika?

5
задан Bobs 9 June 2012 в 14:29
поделиться