Как я могу измерить тенденции в определенных словах, например в Twitter?

У меня есть свод газетных статей днем. Каждое слово в корпусе имеет частоту появления в этот день. Я пытался найти алгоритм, который улавливает отрывочные слова, подобно тому, как Twitter измеряет тенденции в твитах людей.

Например, скажем, слово «рецессия» появляется со следующей частотой в той же группе газет:
День 1 | рецессия | 456
День 2 | рецессия | 2134
День 3 | рецессия | 3678

«Европа»
День 1 | европа | 67895
День 2 | европа | 71999
День 3 | европа | 73321

Я думал взять процент роста за день и умножить его на логарифм суммы частот. Затем я брал средний балл и сравнивал разные слова.

В данном случае:
спад = (3,68 * 8,74 + 0,72 * 8,74) / 2 = 19,23
европа = (0,06 * 12,27 + 0,02 * 12,27) / 2 = 0,49

Есть ли лучший способ зафиксировать взрывной рост? Я пытаюсь исследовать ежедневный корпус, чтобы найти термины, которые все чаще и чаще упоминаются в определенный период времени. ПОЖАЛУЙСТА, дайте мне знать, если есть лучший алгоритм. Я хочу уметь подбирать слова с высоким непостоянным ускорением. Может быть, использование второй производной будет более эффективным.Или, может быть, я делаю это слишком сложным и смотрел слишком много программ по физике на канале Discovery. Если возможно, дайте мне знать математическим примером Спасибо!

15
задан Peter O. 22 December 2011 в 17:07
поделиться