Каков самый простой способ реализовать анализ ассоциаций терминов в Solr?

Извлечение ассоциаций , кажется, дает хорошие результаты для извлечения связанных терминов в текстовых корпусах. Есть несколько работ по этой теме, в том числе известный метод LSA . Самый простой способ найти ассоциации - это построить матрицу совпадения docs X-терминов и найти термины, которые чаще всего встречаются в одних и тех же документах. В своих предыдущих проектах я реализовал его непосредственно в Lucene путем итерации над TermDocs (я получил его, вызвав IndexReader.termDocs (Term) ). Но я не вижу ничего подобного в Solr.

Итак, мои потребности :

  1. Получить наиболее ассоциированные термины в определенном поле.
  2. Чтобы получить термин , наиболее близкий к указанному в определенном поле.

Я буду оценивать ответы следующим образом:

  1. В идеале я хотел бы найти компонент Solr, который непосредственно покрывает указанные потребности, то есть что-то, что позволяет напрямую получать связанные термины.
  2. Если это невозможно, я ищу способ получить информацию о матрице совместной встречаемости для указанного поля.
  3. Если это тоже не вариант, я хотел бы знать самый простой способ 1) получить все термины и 2) получить идентификаторы (номера) документов, в которых встречаются эти термины.

11
задан ffriend 12 September 2011 в 20:53
поделиться