Good algorithm to find themes in tweets ranked by follower counts?

Я новичок в интеллектуальном анализе данных и немного экспериментирую.

Допустим, у меня N пользователей твиттера, и я хочу найти то, что это общая тема, о которой они пишут (на основе твитов).
Затем я хочу придать более высокий вес каждой теме, если у этого пользователя больше подписчиков.

Затем я хочу объединить все темы, если они достаточно похожи, но все же сохранить вес по количеству твиттеров.

Таким образом, в основном это список «важных» тем, ранжированных по авторитету (количество твиттеров пользователей)

Например, как news.google.com, но рейтинг будет основываться на ответственных подписчиках твиттера для темы.

Я бы предпочел что-нибудь на Python, так как это язык, с которым я наиболее знаком.

Есть идеи?

Спасибо

РЕДАКТИРОВАТЬ: Here's a good example of what I'm trying to do (but with diff data) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

В основном анализируя различные данные и их соотношение друг с другом: категории работы и возраст каждого человека или категории слов и количество друзей, как в этом примере.

С чего бы мне начать решать эту проблему и генерировать такие графики?

5
задан Maverick 6 January 2011 в 02:00
поделиться