Вычисления актуальных тем

Question

Вычисления актуальных тем

Скажем, я собираю твиты из Твиттера на основе множества критериев и храню эти твиты в локальной mysql базе данных. Я хочу смочь к компьютерным актуальным темам, как Твиттер, который может быть где угодно от 1-3 слов в длине.

Действительно ли возможно записать сценарий, чтобы сделать что-то вроде этого PHP и mysql?

Я нашел ответ о том, как вычислить, какие условия являются "горячими", после того как Вы можете получить количества условий, но я застреваю в первой части. Как я должен хранить данные в базе данных, как я могу считать частоту условий в базе данных, которые являются 1-3 словами в длине?

5

php mysql

задан Joe Doyle 30 April 2012 в 01:41

3 ответа

Другие вопросы по тегам:

php mysql

Похожие вопросы:

score 1 · Answer 1

Вам нужна либо

классификация документов, либо ..
автоматическая маркировка

Наверное, вторая. И только тогда можно вовремя подсчитать их популярность.

score 1 · Answer 2

Как насчет того, чтобы сначала разложить свои твиты на однословные токены и вычислить для каждого слова его количество вхождений? Когда они у вас будут, вы сможете разложите все два токена слова, подсчитайте количество вхождений и, наконец, проделайте то же самое со всеми тремя токенами слов.

Вы также можете добавить какой-нибудь словарь слов, которые не хотите считать

score 0 · Answer 3

Или сделайте противоположное Dominik и сохраните установить список фраз, которые вы хотите сопоставить, пробелы и все такое. Запишите их как строки регулярных выражений.Для каждой строки в базе данных (файл, таблица sql, что угодно) обработайте регулярное выражение, найдите счетчик.

Это зависит от того, каким образом вы хотите сделать это тривиально: все - то, что является общим, тем самым находя то, что действительно является тенденцией, или задавайте поиск фраз. В одном случае вы найдете много всего, что может вас не заинтересовать, и вам понадобится обширный черный список, а в другом - огромный белый список.

Чтобы выйти за рамки этого, вам понадобятся инструменты обработки естественного языка для определения смысла сказанного.