Измерение сходства между наборами документов

Для наглядности предположим, что это сервис форума. Мне нужно вычислить «сходство» между сообщениями каждого пользователя, чтобы результат был примерно таким:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

Я имею дело с многобайтовыми строками, поэтому, думаю, я застрял здесь с поисковыми системами. Мы уже используем Solr, уже реализовано больше LikeThis, но я не совсем уверен, как построить запрос. Любая помощь приветствуется!

7
задан javanna 8 December 2011 в 22:00
поделиться