Объединение концептуально похожих документов вместе?

Это скорее концептуальный вопрос, чем фактическая реализация, и я надеюсь, что кто-то сможет прояснить это. Моя цель заключается в следующем: учитывая набор документов, я хочу сгруппировать их так, чтобы документы, принадлежащие одному кластеру, имели одинаковую «концепцию».

Насколько я понимаю, Скрытый семантический анализ позволяет мне найти низкоранговую аппроксимацию матрицы термин-документ, т. Е. Заданная матрица X , она разложит X как произведение трех матриц, одна из которых будет диагональной матрицей Σ :

SVD

Теперь я бы выбрал приближение низкого ранга, то есть выбрал бы только верхние значения k из Σ , а затем вычислить X '. Когда у меня есть эта матрица, я должен применить некоторый алгоритм кластеризации, и конечным результатом будет набор кластеров, группирующих документы с похожими концепциями. Это правильный способ применения кластеризации? Я имею в виду, вычисление X ' и последующее применение кластеризации поверх него, или есть какой-то другой метод, который следует использовать?

Кроме того, в моем вопросе , отчасти , я было сказано, что смысл соседа теряется по мере увеличения числа измерений. В таком случае, каково обоснование кластеризации этих многомерных точек данных из X '? Я предполагаю, что требование кластеризации похожих документов является реальным требованием, и в этом случае, как решить эту проблему?

6
задан Community 23 May 2017 в 12:01
поделиться