Python: кластеризация ключевых слов поисковой системы

Python: кластеризация ключевых слов поисковой системы

Привет, У меня есть CSV, до 20000 строк (у меня было более 100000 для разных веб-сайтов), каждая строка содержит ключевое слово ссылки (то есть ключевое слово, которое кто-то ввел в поисковую систему, чтобы найти соответствующий веб-сайт), и количество посещений.

Я хочу сгруппировать эти ключевые слова в кластеры «схожего значения» и создать иерархию кластеров (структурированную в порядке суммарного общего количества поисков на кластер).

Пример кластера - "женская одежда" - в идеале должен содержать следующие ключевые слова: женская одежда, 1000 женская одежда, 300 женская одежда, 50 женская одежда, 6 женская одежда, 2

Я мог бы использовать что-то вроде Python Natural Language Toolkit: http://www.nltk.org/ и WordNet, но, я предполагаю, что для некоторых веб-сайтов ссылающиеся ключевые слова будут словами / фразами, о которых WordNet ничего не знает. Например, если веб-сайт является веб-сайтом знаменитостей, WordNet вряд ли будет знать что-либо о «Леди Гаге», хуже ситуация, если веб-сайт является новостным.

Так что я также предполагаю, что решение должно быть одним который использует только исходные данные.

Мой запрос очень похож на тот, который был подан в Как кластеризовать ключевые слова поисковой системы? , только я ищу где-нибудь, чтобы начать, но вместо этого использую Python Java.

Я также задавался вопросом, могут ли Google Predict и / или Google Refine быть полезными.

В любом случае, C

6
задан Community 23 May 2017 в 12:32
поделиться