я должен извлечь условия с наибольшими частотами от нескольких индексов lucene, для использования их для некоторого семантического анализа.
Так, я хочу стать, возможно, лучшим 30 большинство происходящих условий (все еще не выбрал порог, я проанализирую результаты), и их количества на индекс. Я знаю, что мог бы потерять некоторую точность из-за potentionally отброшенных дубликатов, но на данный момент, позволяю, говорят, что я соглашаюсь с этим.
Таким образом для предлагаемых решений, (само собой разумеется, возможно) скорость не важна, так как я сделал бы статический анализ, я помещу диакритический знак на простоту реализации, потому что я не так квалифицирован с Lucene, и наклон переносят мой ум вокруг некоторого понятия его..
Я не могу найти примеры кода от чего-то подобного, таким образом, все конкретные советы (код, псевдокод, ссылки на примеры кода...) Ценят все советы!
Спасибо!
Взгляните на это: http://sujitpal.blogspot.com/2009/02/summarization-with- lucene.html
Класс на этой странице имеет метод computeTopTermQuery
, который вы легко сможете модифицировать для просмотра нескольких индексов.
Очень простой способ - использовать Luke . На вкладке «Обзор» есть кнопка «Показать основные термины», которую можно использовать для того, что вам нужно.