Я планирую приложение, которое сделает кластеры коротких сообщений/твитов на основе тем. Количество тем будет ограничено как Спорт [NBA, НФЛ, Крикет, Футбол], Развлечения [фильмы, музыка] и так далее...
Я могу думать о двух подходах к этому
Я хотел бы знать, существуют ли какие-либо другие подходы к этой проблеме. Или есть ли какие-либо способы улучшить вышеупомянутые методы?
Также предложите некоторые хорошие алгоритмы кластеризации. Я думаю "K-Nearest, Кластеризирующийся" алгоритм склонен для этой ситуации.
Используйте Байесовскую классификацию . Обучите фильтр с помощью некоторого предопределенного корпуса и (необязательно) предоставьте пользователям способ его дальнейшего уточнения, отмечая вещи, которые были неправильно классифицированы.
Вот несколько примеров использования байесовского классификатора в NLTK .