Как я могу кластеризировать короткие сообщения [Твиты] на основе темы? [Основанная на теме Кластеризация]

Question

Как я могу кластеризировать короткие сообщения [Твиты] на основе темы? [Основанная на теме Кластеризация]

Я планирую приложение, которое сделает кластеры коротких сообщений/твитов на основе тем. Количество тем будет ограничено как Спорт [NBA, НФЛ, Крикет, Футбол], Развлечения [фильмы, музыка] и так далее...

Я могу думать о двух подходах к этому

Попросите, чтобы пользователи к расчлененным вопросам как Stackoverflow сделали. Пользователи могут выбрать теги из предопределенного списка тегов. Затем на стороне сервера я буду кластеризировать их на основе тегов. Профессионалы:-Простой дизайн. Меньше сложности в коде. Недостатки:-Выбор для пользователей будут ограничены. Кластеры не будут динамичными. Если новое событие будет иметь место, то предопределенные теги пропустят его.
Возьмите сообщение, удалите стоп-слова [предопределенный в словаре], примените некоторый кластеризирующийся алгоритм на остановленное сообщение для создания кластера, и в зависимости от его популярности отображают кластер. Кластер будет отображен до времени это остается популярным [много сообщений/минута].New сообщения просмотрят и присвоят соответствующим кластерам. Профессионалы:-Динамическая кластеризация на основе популярности события/несчастного случая. Недостатки:-Увеличенная сложность. Требуется больше ресурсов сервера.

Я хотел бы знать, существуют ли какие-либо другие подходы к этой проблеме. Или есть ли какие-либо способы улучшить вышеупомянутые методы?

Также предложите некоторые хорошие алгоритмы кластеризации. Я думаю "K-Nearest, Кластеризирующийся" алгоритм склонен для этой ситуации.

7

cluster-analysis tagging

задан Vadim Kotov 1 August 2017 в 16:26

1 ответ

Другие вопросы по тегам:

cluster-analysis tagging

Как я могу кластеризировать короткие сообщения [Твиты] на основе темы? [Основанная на теме Кластеризация]

1 ответ

Похожие вопросы: