Скажем, я собираю твиты из Твиттера на основе множества критериев и храню эти твиты в локальной mysql базе данных. Я хочу смочь к компьютерным актуальным темам, как Твиттер, который может быть где угодно от 1-3 слов в длине.
Действительно ли возможно записать сценарий, чтобы сделать что-то вроде этого PHP и mysql?
Я нашел ответ о том, как вычислить, какие условия являются "горячими", после того как Вы можете получить количества условий, но я застреваю в первой части. Как я должен хранить данные в базе данных, как я могу считать частоту условий в базе данных, которые являются 1-3 словами в длине?
Вам нужна либо
Наверное, вторая. И только тогда можно вовремя подсчитать их популярность.
Как насчет того, чтобы сначала разложить свои твиты на однословные токены и вычислить для каждого слова его количество вхождений? Когда они у вас будут, вы сможете разложите все два токена слова, подсчитайте количество вхождений и, наконец, проделайте то же самое со всеми тремя токенами слов.
Вы также можете добавить какой-нибудь словарь слов, которые не хотите считать
Или сделайте противоположное Dominik и сохраните установить список фраз, которые вы хотите сопоставить, пробелы и все такое. Запишите их как строки регулярных выражений.Для каждой строки в базе данных (файл, таблица sql, что угодно) обработайте регулярное выражение, найдите счетчик.
Это зависит от того, каким образом вы хотите сделать это тривиально: все - то, что является общим, тем самым находя то, что действительно является тенденцией, или задавайте поиск фраз. В одном случае вы найдете много всего, что может вас не заинтересовать, и вам понадобится обширный черный список, а в другом - огромный белый список.
Чтобы выйти за рамки этого, вам понадобятся инструменты обработки естественного языка для определения смысла сказанного.