Для наглядности предположим, что это сервис форума. Мне нужно вычислить «сходство» между сообщениями каждого пользователя, чтобы результат был примерно таким:
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
Я имею дело с многобайтовыми строками, поэтому, думаю, я застрял здесь с поисковыми системами. Мы уже используем Solr, уже реализовано больше LikeThis, но я не совсем уверен, как построить запрос. Любая помощь приветствуется!