Я реализовал lucene для своего приложения, и это работает очень хорошо, если Вы не представили что-то как японские символы.
Проблема состоит в том, что, если у меня есть японская строка こんにちは、このバイネイです и я ищу с こ, который является первым символом, чем это работает хорошо, тогда как, если я использую больше чем один японский символ (こんにち) в поисковых маркерных поисковых сбоях и нет никакого найденного документа.
Японские символы поддерживаются в lucene? что настройки должны быть сделаны для получения его работа?
Я не думаю, что может быть анализатор, который будет работать для всех языков. Проблема в том, что в разных языках действуют разные правила, касающиеся границ слов и образования корней (например, тайский язык вообще не использует пробелы для разделения слов). Или, если есть, я бы точно не хотел быть сопровождающим!
Что вам нужно сделать, так это «пометить» блоки текста как тот или иной язык и использовать правильный анализатор для этого конкретного языка. Вы можете попытаться определить язык «автоматически», выполнив анализ символов (т.е. текст, в котором преобладает японская катакана, скорее всего, японский)
Встроенный анализатор люцена не поддерживает японский язык.
Вам необходимо установить какой-нибудь анализатор, например sen , который является java-портом для mecab , довольно популярного японского анализатора, и он быстрый.
Существует 2 подтипа, называемые