Solr: Каковы преимущества нормализации длины / omitNorms = false?

Мы используем Solr для поиска статей различной длины. Мы индексируем как описательные метаданные (название, автор, категорию, ключевые слова и т. Д.), Так и полный текст статьи. Мы не повышаем релевантность во время индексации - все повышения выполняются во время запроса (мы используем Dismax в сочетании с различными повышениями qf, pf и bf).

В настоящее время в нашем полнотекстовом поле используется стандартное omitNorms = false; и, как результат, при прочих равных, более короткие статьи (статьи размером 2-3 дюйма) часто будут иметь более высокую релевантность, чем более длинные полнометражные (многостраничные) статьи.

В нашем случае длина статьи является важным показателем релевантности , и поэтому я подумываю установить omitNorms = true в нашем полнотекстовом поле.

Вопросы: 1. Почему поведение lucene / solr по умолчанию увеличивает длину коротких полей по сравнению с большими? В чем причина? 2. Почему бы мне не пропустить Нормы? Мне не нужно увеличивать количество запросов в этом конкретном поле или использовать какие-либо фасеты в этом поле.

21
задан Oskar Austegard 26 July 2011 в 13:33
поделиться