Получите условия наибольшей частоты от индекса Lucene

Question

Получите условия наибольшей частоты от индекса Lucene

я должен извлечь условия с наибольшими частотами от нескольких индексов lucene, для использования их для некоторого семантического анализа.

Так, я хочу стать, возможно, лучшим 30 большинство происходящих условий (все еще не выбрал порог, я проанализирую результаты), и их количества на индекс. Я знаю, что мог бы потерять некоторую точность из-за potentionally отброшенных дубликатов, но на данный момент, позволяю, говорят, что я соглашаюсь с этим.

Таким образом для предлагаемых решений, (само собой разумеется, возможно) скорость не важна, так как я сделал бы статический анализ, я помещу диакритический знак на простоту реализации, потому что я не так квалифицирован с Lucene, и наклон переносят мой ум вокруг некоторого понятия его..

Я не могу найти примеры кода от чего-то подобного, таким образом, все конкретные советы (код, псевдокод, ссылки на примеры кода...) Ценят все советы!

Спасибо!

5

java lucene full-text-search indexing frequency

задан Julia 26 May 2011 в 13:54

2 ответа

Очень простой способ - использовать Luke . На вкладке «Обзор» есть кнопка «Показать основные термины», которую можно использовать для того, что вам нужно.

5

ответ дан 14 December 2019 в 08:44

Другие вопросы по тегам:

java lucene full-text-search indexing frequency

Получите условия наибольшей частоты от индекса Lucene

2 ответа

Похожие вопросы: