Вычисления актуальных тем

Скажем, я собираю твиты из Твиттера на основе множества критериев и храню эти твиты в локальной mysql базе данных. Я хочу смочь к компьютерным актуальным темам, как Твиттер, который может быть где угодно от 1-3 слов в длине.

Действительно ли возможно записать сценарий, чтобы сделать что-то вроде этого PHP и mysql?

Я нашел ответ о том, как вычислить, какие условия являются "горячими", после того как Вы можете получить количества условий, но я застреваю в первой части. Как я должен хранить данные в базе данных, как я могу считать частоту условий в базе данных, которые являются 1-3 словами в длине?

5
задан Joe Doyle 30 April 2012 в 01:41
поделиться

3 ответа

Вам нужна либо

  1. классификация документов, либо ..
  2. автоматическая маркировка

Наверное, вторая. И только тогда можно вовремя подсчитать их популярность.

1
ответ дан 15 December 2019 в 01:00
поделиться

Как насчет того, чтобы сначала разложить свои твиты на однословные токены и вычислить для каждого слова его количество вхождений? Когда они у вас будут, вы сможете разложите все два токена слова, подсчитайте количество вхождений и, наконец, проделайте то же самое со всеми тремя токенами слов.

Вы также можете добавить какой-нибудь словарь слов, которые не хотите считать

1
ответ дан 15 December 2019 в 01:00
поделиться

Или сделайте противоположное Dominik и сохраните установить список фраз, которые вы хотите сопоставить, пробелы и все такое. Запишите их как строки регулярных выражений.Для каждой строки в базе данных (файл, таблица sql, что угодно) обработайте регулярное выражение, найдите счетчик.

Это зависит от того, каким образом вы хотите сделать это тривиально: все - то, что является общим, тем самым находя то, что действительно является тенденцией, или задавайте поиск фраз. В одном случае вы найдете много всего, что может вас не заинтересовать, и вам понадобится обширный черный список, а в другом - огромный белый список.

Чтобы выйти за рамки этого, вам понадобятся инструменты обработки естественного языка для определения смысла сказанного.

0
ответ дан 15 December 2019 в 01:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: