Поиск Lucene японских символов

Я реализовал lucene для своего приложения, и это работает очень хорошо, если Вы не представили что-то как японские символы.

Проблема состоит в том, что, если у меня есть японская строка こんにちは、このバイネイです и я ищу с こ, который является первым символом, чем это работает хорошо, тогда как, если я использую больше чем один японский символ (こんにち) в поисковых маркерных поисковых сбоях и нет никакого найденного документа.

Японские символы поддерживаются в lucene? что настройки должны быть сделаны для получения его работа?

7
задан Pranali Desai 15 April 2010 в 07:27
поделиться

2 ответа

Я не думаю, что может быть анализатор, который будет работать для всех языков. Проблема в том, что в разных языках действуют разные правила, касающиеся границ слов и образования корней (например, тайский язык вообще не использует пробелы для разделения слов). Или, если есть, я бы точно не хотел быть сопровождающим!

Что вам нужно сделать, так это «пометить» блоки текста как тот или иной язык и использовать правильный анализатор для этого конкретного языка. Вы можете попытаться определить язык «автоматически», выполнив анализ символов (т.е. текст, в котором преобладает японская катакана, скорее всего, японский)

3
ответ дан 7 December 2019 в 07:42
поделиться

Встроенный анализатор люцена не поддерживает японский язык.

Вам необходимо установить какой-нибудь анализатор, например sen , который является java-портом для mecab , довольно популярного японского анализатора, и он быстрый.

Существует 2 подтипа, называемые

  1. CJKAnalyzer, которые поддерживают китайский и корейский, а также с использованием биграммного метода
  2. JapaneseAnalyzer, которые поддерживают только японский язык, с использованием Morphological Analyzer и должны быть очень быстрыми.
4
ответ дан 7 December 2019 в 07:42
поделиться
Другие вопросы по тегам:

Похожие вопросы: