Я новичок в интеллектуальном анализе данных и немного экспериментирую.
Допустим, у меня N пользователей твиттера, и я хочу найти то, что
это общая тема, о которой они пишут (на основе твитов).
Затем я хочу придать более высокий вес каждой теме, если у этого пользователя больше подписчиков.
Затем я хочу объединить все темы, если они достаточно похожи, но все же сохранить вес по количеству твиттеров.
Таким образом, в основном это список «важных» тем, ранжированных по авторитету (количество твиттеров пользователей)
Например, как news.google.com, но рейтинг будет основываться на ответственных подписчиках твиттера для темы.
Я бы предпочел что-нибудь на Python, так как это язык, с которым я наиболее знаком.
Есть идеи?
Спасибо
РЕДАКТИРОВАТЬ: Here's a good example of what I'm trying to do (but with diff data) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
В основном анализируя различные данные и их соотношение друг с другом: категории работы и возраст каждого человека или категории слов и количество друзей, как в этом примере.
С чего бы мне начать решать эту проблему и генерировать такие графики?