вслепую классифицирующие новые тенденции во входящих данных

Question

вслепую классифицирующие новые тенденции во входящих данных

как новостным источникам нравятся новости Google, автоматически классифицируют и оценивают документы о появляющихся темах, как бюджет "obama 2011 года"?

я имею груду статей, отмеченных с бейсбольными данными как названия плеера и отношение к статье (спасибо, opencalais), и хотел бы создать интерфейс стиля новостей Google, который оценивает и показывает новые сообщения, поскольку они входят, особенно появляющиеся темы. я предполагаю, что наивный классификатор Байеса мог быть обучен w/некоторые статические категории, но это действительно не допускает отслеживание тенденций как "этот плеер, был просто продан этой команде, эти другие плееры были также вовлечены".

5

statistics artificial-intelligence classification bayesian

задан Carson 1 February 2010 в 23:55

2 ответа

Другие вопросы по тегам:

statistics artificial-intelligence classification bayesian

Похожие вопросы:

score 2 · Answer 1

Основные алгоритмы позади Google News были опубликованы в академической литературе Google исследователями:

score 4 · Answer 2

Без сомнения, Google News может использовать другие трюки (или даже их комбинацию), но один относительно дешевый трюк, с вычислительной точки зрения, для вывода тем из свободного текста, будет использовать NLP понятие, что слово получает свое значение только при соединении с другими словами .
Алгоритм, восприимчивый к открытию новых тематических категорий из нескольких документов, может быть описан следующим образом:

POS (часть речи) пометить текст
. Вероятно, мы хотим уделить больше внимания существительным и, возможно, даже больше внимания именованным сущностям (таким как Обама или Новая Англия)
Нормализовать текст
. В частности, замените перегибаемые слова на их общий стебель. Может быть, даже заменить некоторые прилагательные соответствующим именованным Entity (ex: Parisian ==> Paris, legal ==> law)
. Также удалите шумовые слова и шумовые выражения.
идентифицировать некоторые слова из списка вручную поддерживаемых "текущих / повторяющихся горячих слов" (Суперкубок, Выборы, скандал...)
. Это может быть использовано на последующих этапах для придания большего веса некоторым N-граммам
Перечислите все N-граммы, найденные в каждом документе (где N равно 1, чтобы сказать 4 или 5)
. Не забудьте отдельно посчитать количество случаев появления каждой N-граммы в данном документе и количество документов, цитирующих данную N-грамму
Наиболее часто цитируемые N-граммы (т.е. те, которые цитируются в большинстве документов), вероятно, являются Темами.
Определите существующие темы (из списка известных тем)
[опционально] Ручной обзор новых тем

Этот общий рецепт может быть также изменен для использования других атрибутов документов и текста в них. Например, происхождение документа (например, cnn/sports vs. cnn/politics ...) может быть использовано для выбора лексики, специфичной для домена. Другой пример процесса может более или менее сильно выделять слова/выражения из названия документа (или других областей текста с определенной разметкой).