вслепую классифицирующие новые тенденции во входящих данных

как новостным источникам нравятся новости Google, автоматически классифицируют и оценивают документы о появляющихся темах, как бюджет "obama 2011 года"?

я имею груду статей, отмеченных с бейсбольными данными как названия плеера и отношение к статье (спасибо, opencalais), и хотел бы создать интерфейс стиля новостей Google, который оценивает и показывает новые сообщения, поскольку они входят, особенно появляющиеся темы. я предполагаю, что наивный классификатор Байеса мог быть обучен w/некоторые статические категории, но это действительно не допускает отслеживание тенденций как "этот плеер, был просто продан этой команде, эти другие плееры были также вовлечены".

5
задан Carson 1 February 2010 в 23:55
поделиться

2 ответа

Основные алгоритмы позади Google News были опубликованы в академической литературе Google исследователями:

2
ответ дан 14 December 2019 в 13:36
поделиться

Без сомнения, Google News может использовать другие трюки (или даже их комбинацию), но один относительно дешевый трюк, с вычислительной точки зрения, для вывода тем из свободного текста, будет использовать NLP понятие, что слово получает свое значение только при соединении с другими словами .
Алгоритм, восприимчивый к открытию новых тематических категорий из нескольких документов, может быть описан следующим образом:

  • POS (часть речи) пометить текст
    . Вероятно, мы хотим уделить больше внимания существительным и, возможно, даже больше внимания именованным сущностям (таким как Обама или Новая Англия)
  • Нормализовать текст
    . В частности, замените перегибаемые слова на их общий стебель. Может быть, даже заменить некоторые прилагательные соответствующим именованным Entity (ex: Parisian ==> Paris, legal ==> law)
    . Также удалите шумовые слова и шумовые выражения.
  • идентифицировать некоторые слова из списка вручную поддерживаемых "текущих / повторяющихся горячих слов" (Суперкубок, Выборы, скандал...)
    . Это может быть использовано на последующих этапах для придания большего веса некоторым N-граммам
  • Перечислите все N-граммы, найденные в каждом документе (где N равно 1, чтобы сказать 4 или 5)
    . Не забудьте отдельно посчитать количество случаев появления каждой N-граммы в данном документе и количество документов, цитирующих данную N-грамму
  • Наиболее часто цитируемые N-граммы (т.е. те, которые цитируются в большинстве документов), вероятно, являются Темами.
  • Определите существующие темы (из списка известных тем)
  • .
  • [опционально] Ручной обзор новых тем

Этот общий рецепт может быть также изменен для использования других атрибутов документов и текста в них. Например, происхождение документа (например, cnn/sports vs. cnn/politics ...) может быть использовано для выбора лексики, специфичной для домена. Другой пример процесса может более или менее сильно выделять слова/выражения из названия документа (или других областей текста с определенной разметкой).

4
ответ дан 14 December 2019 в 13:36
поделиться
Другие вопросы по тегам:

Похожие вопросы: