как новостным источникам нравятся новости Google, автоматически классифицируют и оценивают документы о появляющихся темах, как бюджет "obama 2011 года"?
я имею груду статей, отмеченных с бейсбольными данными как названия плеера и отношение к статье (спасибо, opencalais), и хотел бы создать интерфейс стиля новостей Google, который оценивает и показывает новые сообщения, поскольку они входят, особенно появляющиеся темы. я предполагаю, что наивный классификатор Байеса мог быть обучен w/некоторые статические категории, но это действительно не допускает отслеживание тенденций как "этот плеер, был просто продан этой команде, эти другие плееры были также вовлечены".
Основные алгоритмы позади Google News были опубликованы в академической литературе Google исследователями:
Без сомнения, Google News может использовать другие трюки (или даже их комбинацию), но один относительно дешевый трюк, с вычислительной точки зрения, для вывода тем из свободного текста, будет использовать NLP понятие, что слово получает свое значение только при соединении с другими словами .
Алгоритм, восприимчивый к открытию новых тематических категорий из нескольких документов, может быть описан следующим образом:
Этот общий рецепт может быть также изменен для использования других атрибутов документов и текста в них. Например, происхождение документа (например, cnn/sports vs. cnn/politics ...) может быть использовано для выбора лексики, специфичной для домена. Другой пример процесса может более или менее сильно выделять слова/выражения из названия документа (или других областей текста с определенной разметкой).