Какие ключевые слова больше всего различают две группы людей?

У меня есть база данных ключевых слов, используемых при поиске людьми из разных групп. Что-то вроде:

group1person1: x, y, z
group1person2: x, z, d
...
group2person1: z, d, l
...

и так далее

Я хочу увидеть, какие ключевые слова наиболее характерны для данной группы. Я пытаюсь сделать то, что OkCupid сделал в своем блоге: http://blog.okcupid.com/index.php/the-real-stuff-white-people-like/

Кто-нибудь может порекомендовать подходящие алгоритмы / терминология / совет относительно этой задачи?

(Я сделаю это на Python)

Заранее спасибо!

7
задан DrMisha 21 February 2014 в 17:27
поделиться