Я пытаюсь оценить сходство между постами в социальных сетях, но не нашел хороших алгоритмов для этого, мысли?
I только что попробовал Левенштейна, JaroWinkler и других, но те, которые больше используются для сравнения текстов без настроений. В постах мы можем получить один текст с надписью «Я действительно люблю собак», а другой - «Я действительно ненавижу собак», мы должны классифицировать этот случай как совершенно другой.
Спасибо
Возможно, вы захотите взглянуть на Изучение мнений и анализ настроений, чтобы получить представление о сложности задачи.
Короткий ответ: для этого не существует «хороших алгоритмов», есть только посредственные. И это очень трудная проблема. Удачи.
Ааа... но "я действительно люблю собак" и "я действительно ненавижу собак" полностью похожи ;), оба обсуждают чувства к собакам. Кажется, вы пропустили один шаг:
Если ваш алгоритм настраивается на основе своего опыта (т. е. требуется некоторое обучение)., затем убедитесь, что вы запускаете отдельные экземпляры алгоритма для первой классификации и новый экземпляр алгоритма для каждой подклассификации... если вы этого не сделаете, вы можете получить случай, когда вы найдете несколько групп и каждый раз, когда вы запускаете свой алгоритм на одних и тех же группах, результаты почти идентичны и/или вообще ничего не меняется.
Apache Mahout предоставляет множество полезных алгоритмов и примеров кластеризации, классификации, генетического программирования, леса решений, анализа рекомендаций. Вот некоторые примеры классификации текста от mahout:
Я не уверен, какой из них лучше всего подходит для вашей проблемы, но, возможно, если вы просмотрите их, вы поймете, какой из них наиболее подходит для вашего конкретного приложения.