Тематическое моделирование LDA — обучение и тестирование

Я читал LDA и понимаю математику того, как генерируются темы при вводе набора документов.

В источниках говорится, что LDA — это алгоритм, который, имея набор документов и ничего более (не требуется наблюдения), может раскрыть «темы», выраженные документами в этом наборе. Таким образом, используя алгоритм LDA и пробоотборник Гиббса (или вариационный байесовский алгоритм), я могу ввести набор документов, а на выходе получить темы. Каждая тема представляет собой набор терминов с заданными вероятностями.

Чего я не понимаю, так это того, что если вышесказанное верно, то почему во многих руководствах по тематическому моделированию говорится о разделении набора данных на обучающий и тестовый?

Может ли кто-нибудь объяснить мне шаги (основную концепцию) того, как LDA можно использовать для обучения модели, которую затем можно использовать для анализа другого набора тестовых данных?

37
задан lambda 2 June 2016 в 19:55
поделиться

0 ответов

Другие вопросы по тегам:

Похожие вопросы: