TF -IDF Simple Use -NLTK/Scikit Learn

Хорошо, поэтому я немного смущен. Однако это должен быть простой прямой вопрос.

После вычисления TF -IDF Matrix документа по всему корпусу я получаю результат, очень похожий на этот:

array([[ 0.85...,  0. ...,  0.52...],
       [ 1. ...,  0. ...,  0. ...],
       [ 1. ...,  0. ...,  0. ...],
       [ 1. ...,  0. ...,  0. ...],
       [ 0.55...,  0.83...,  0. ...],
       [ 0.63...,  0. ...,  0.77...]])

Как мне использовать этот результат, чтобы получить документ, максимально похожий на поисковый запрос? По сути, я пытаюсь повторно -создать панель поиска для Википедии. На основе поискового запроса я хочу вернуть наиболее релевантные статьи из Википедии. В этом сценарии имеется 6 статей (строк ), а поисковый запрос содержит 3 слова (столбцы ).

Сложить все результаты в столбцах или сложить все строки? Является ли большее значение наиболее релевантным или самое низкое значение наиболее релевантным?

6
задан tabchas 8 August 2012 в 17:47
поделиться