Получите условия наибольшей частоты от индекса Lucene

я должен извлечь условия с наибольшими частотами от нескольких индексов lucene, для использования их для некоторого семантического анализа.

Так, я хочу стать, возможно, лучшим 30 большинство происходящих условий (все еще не выбрал порог, я проанализирую результаты), и их количества на индекс. Я знаю, что мог бы потерять некоторую точность из-за potentionally отброшенных дубликатов, но на данный момент, позволяю, говорят, что я соглашаюсь с этим.

Таким образом для предлагаемых решений, (само собой разумеется, возможно) скорость не важна, так как я сделал бы статический анализ, я помещу диакритический знак на простоту реализации, потому что я не так квалифицирован с Lucene, и наклон переносят мой ум вокруг некоторого понятия его..

Я не могу найти примеры кода от чего-то подобного, таким образом, все конкретные советы (код, псевдокод, ссылки на примеры кода...) Ценят все советы!

Спасибо!

5
задан Julia 26 May 2011 в 13:54
поделиться

2 ответа

Взгляните на это: http://sujitpal.blogspot.com/2009/02/summarization-with- lucene.html

Класс на этой странице имеет метод computeTopTermQuery , который вы легко сможете модифицировать для просмотра нескольких индексов.

2
ответ дан 14 December 2019 в 08:44
поделиться

Очень простой способ - использовать Luke . На вкладке «Обзор» есть кнопка «Показать основные термины», которую можно использовать для того, что вам нужно.

5
ответ дан 14 December 2019 в 08:44
поделиться
Другие вопросы по тегам:

Похожие вопросы: