Как я оцениваю размер индекса Lucene?

Многие объяснения уже присутствуют, чтобы объяснить, как это происходит и как это исправить, но вы также должны следовать рекомендациям, чтобы избежать NullPointerException вообще.

См. также: A хороший список лучших практик

Я бы добавил, очень важно, хорошо использовать модификатор final. Использование "окончательной" модификатор, когда это применимо в Java

Сводка:

  1. Используйте модификатор final для обеспечения хорошей инициализации.
  2. Избегайте возврата null в методы, например, при возврате пустых коллекций.
  3. Использовать аннотации @NotNull и @Nullable
  4. Быстрое завершение работы и использование утверждений, чтобы избежать распространения нулевых объектов через все приложение, когда они не должен быть пустым.
  5. Сначала используйте значения с известным объектом: if("knownObject".equals(unknownObject)
  6. Предпочитают valueOf() поверх toString ().
  7. Используйте null safe StringUtils StringUtils.isEmpty(null).

8
задан bpapa 15 September 2008 в 18:24
поделиться

2 ответа

Вот индексная документация формата lucene. Главный файл является составным индексом (.cfs файл). Если у Вас есть статистика термина, можно, вероятно, получить оценку для .cfs размера файла, Примечание, что это варьируется значительно на основе Анализатора, который Вы используете, и на типах поля, которые Вы определяете.

2
ответ дан 6 December 2019 в 00:59
поделиться

Я думаю, что это должно также сделать с частотой каждого термина (т.е. индекс 10 000 копий условий сем должен быть намного меньшим, чем индекс 10 000 совершенно уникальных условий).

Кроме того, существует, вероятно, маленькая зависимость от того, используете ли Вы Вектора терминов или нет, и конечно храните ли Вы поля или нет. Можно ли предоставить больше подробную информацию? Можно ли проанализировать частотность термина исходных данных?

0
ответ дан 6 December 2019 в 00:59
поделиться
Другие вопросы по тегам:

Похожие вопросы: