Как алгоритм актуальных тем Твиттера решает который слова извлечь из твитов?

Я видел этот вопрос, который фокусируется на проблеме "Brittney Spears". Но у меня есть определенный другой вопрос. Как алгоритм определяет, какие слова или фразы должны быть оценены? Например, если я отсылаю твит, в котором говорится, что "Michael Jackson умер", как он знает для выведения "Michael Jackson", но не "умер"?

Или предположите, что Alec Baldwin и Steven Baldwin были в новостях в тот день и таким образом были оба упомянуты в большом количестве твитов. Как это знало бы для обработки обоих имен по-другому вместо того, чтобы просто вывести "Baldwin"?

Сделанный наивно, я видел эту проблему, как являющуюся полным NP (необходимо будет сравнить все потенциальные фразы в твите со всеми потенциальными фразами во всех твиты else).

7
задан Community 23 May 2017 в 12:24
поделиться

2 ответа

Общее решение этой проблемы - "термин frequency, inverse document frequency" (tf-idf).

Это статистический подход, который находит слова/термины, которые являются более релевантными, чем другие, потому что их видят не очень часто. В этом случае имя "Майкл Джексон" может иметь очень низкую частоту по сравнению с обычным английским словом "умер".

Что касается Алека Болдуина против Стивена Болдуина - они будут идентифицированы как отдельные во время тегирования части речи - они будут тегироваться как отдельные собственные существительные.

.
2
ответ дан 7 December 2019 в 14:33
поделиться

Полагаю, это ищет общие наборы слов. Кроме того, похоже, что они ссылаются http://www.whatthetrend.com/

В дополнение к этому, может быть задействован и слабый человеческий контроль.

.
2
ответ дан 7 December 2019 в 14:33
поделиться
Другие вопросы по тегам:

Похожие вопросы: