Lucene&#Алгоритм 39;s

Я читал статью Дуга Каттинга; " Оптимизация пространства для общего ранжирования ".

Поскольку это было написано давным-давно, мне интересно, какие алгоритмы использует lucene (в отношении обхода списка публикаций и расчета баллов, ранжирования ).

В частности, алгоритм полного ранжирования, описанный там, включает обход всего списка постов для каждого условия запроса, поэтому в случае очень распространенных терминов запроса, таких как «желтая собака», любой из двух терминов может иметь очень очень длинный список сообщений. в случае веб-поиска. Все ли они действительно пройдены в текущем Lucene/Solr? Или есть какие-то эвристики для усечения используемого списка?

В случае, когда возвращаются только первые k результатов, я могу понять, что распределение списка публикаций по нескольким машинам, а затем объединение первых -k с каждой будет работать, но если нам требуется вернуть 100-я страница результатов», т. е. результаты, ранжированные с 990 --1000-й, тогда каждый раздел все равно должен будет найти первую 1000, поэтому разделение мало поможет.

В целом, существует ли какая-либо подробная документация по внутренним алгоритмам, используемым Lucene, на дату от -до -?

19
задан gre_gor 27 May 2018 в 18:48
поделиться