У меня есть база данных ключевых слов, используемых при поиске людьми из разных групп. Что-то вроде:
group1person1: x, y, z
group1person2: x, z, d
...
group2person1: z, d, l
...
и так далее
Я хочу увидеть, какие ключевые слова наиболее характерны для данной группы. Я пытаюсь сделать то, что OkCupid сделал в своем блоге: http://blog.okcupid.com/index.php/the-real-stuff-white-people-like/
Кто-нибудь может порекомендовать подходящие алгоритмы / терминология / совет относительно этой задачи?
(Я сделаю это на Python)
Заранее спасибо!