Как я могу кластеризировать короткие сообщения [Твиты] на основе темы? [Основанная на теме Кластеризация]

Я планирую приложение, которое сделает кластеры коротких сообщений/твитов на основе тем. Количество тем будет ограничено как Спорт [NBA, НФЛ, Крикет, Футбол], Развлечения [фильмы, музыка] и так далее...

Я могу думать о двух подходах к этому

  • Попросите, чтобы пользователи к расчлененным вопросам как Stackoverflow сделали. Пользователи могут выбрать теги из предопределенного списка тегов. Затем на стороне сервера я буду кластеризировать их на основе тегов. Профессионалы:-Простой дизайн. Меньше сложности в коде. Недостатки:-Выбор для пользователей будут ограничены. Кластеры не будут динамичными. Если новое событие будет иметь место, то предопределенные теги пропустят его.
  • Возьмите сообщение, удалите стоп-слова [предопределенный в словаре], примените некоторый кластеризирующийся алгоритм на остановленное сообщение для создания кластера, и в зависимости от его популярности отображают кластер. Кластер будет отображен до времени это остается популярным [много сообщений/минута].New сообщения просмотрят и присвоят соответствующим кластерам. Профессионалы:-Динамическая кластеризация на основе популярности события/несчастного случая. Недостатки:-Увеличенная сложность. Требуется больше ресурсов сервера.

Я хотел бы знать, существуют ли какие-либо другие подходы к этой проблеме. Или есть ли какие-либо способы улучшить вышеупомянутые методы?

Также предложите некоторые хорошие алгоритмы кластеризации. Я думаю "K-Nearest, Кластеризирующийся" алгоритм склонен для этой ситуации.

7
задан Vadim Kotov 1 August 2017 в 16:26
поделиться

1 ответ

Используйте Байесовскую классификацию . Обучите фильтр с помощью некоторого предопределенного корпуса и (необязательно) предоставьте пользователям способ его дальнейшего уточнения, отмечая вещи, которые были неправильно классифицированы.

Вот несколько примеров использования байесовского классификатора в NLTK .

2
ответ дан 7 December 2019 в 12:15
поделиться
Другие вопросы по тегам:

Похожие вопросы: