Хорошо, поэтому я немного смущен. Однако это должен быть простой прямой вопрос.
После вычисления TF -IDF Matrix документа по всему корпусу я получаю результат, очень похожий на этот:
array([[ 0.85..., 0. ..., 0.52...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 0.55..., 0.83..., 0. ...],
[ 0.63..., 0. ..., 0.77...]])
Как мне использовать этот результат, чтобы получить документ, максимально похожий на поисковый запрос? По сути, я пытаюсь повторно -создать панель поиска для Википедии. На основе поискового запроса я хочу вернуть наиболее релевантные статьи из Википедии. В этом сценарии имеется 6 статей (строк ), а поисковый запрос содержит 3 слова (столбцы ).
Сложить все результаты в столбцах или сложить все строки? Является ли большее значение наиболее релевантным или самое низкое значение наиболее релевантным?