алгоритм для вычисления сходства между текстами

Я пытаюсь оценить сходство между постами в социальных сетях, но не нашел хороших алгоритмов для этого, мысли?

I только что попробовал Левенштейна, JaroWinkler и других, но те, которые больше используются для сравнения текстов без настроений. В постах мы можем получить один текст с надписью «Я действительно люблю собак», а другой - «Я действительно ненавижу собак», мы должны классифицировать этот случай как совершенно другой.

Спасибо

7
задан Aaron Novstrup 27 August 2010 в 16:24
поделиться

2 ответа

Возможно, вы захотите взглянуть на Изучение мнений и анализ настроений, чтобы получить представление о сложности задачи.

Короткий ответ: для этого не существует «хороших алгоритмов», есть только посредственные. И это очень трудная проблема. Удачи.

1
ответ дан 7 December 2019 в 07:37
поделиться

Ааа... но "я действительно люблю собак" и "я действительно ненавижу собак" полностью похожи ;), оба обсуждают чувства к собакам. Кажется, вы пропустили один шаг:

  1. Запустите свой алгоритм и получите общие тематические группы (например, «чувства по отношению к собакам»).
  2. Запустите ваш алгоритм еще раз, но на этот раз для каждой ранее «обнаруженной» группы, и пусть ваш алгоритм далее классифицирует их по подгруппам (например, «я ненавижу собак»/«я люблю собак»).

Если ваш алгоритм настраивается на основе своего опыта (т. е. требуется некоторое обучение)., затем убедитесь, что вы запускаете отдельные экземпляры алгоритма для первой классификации и новый экземпляр алгоритма для каждой подклассификации... если вы этого не сделаете, вы можете получить случай, когда вы найдете несколько групп и каждый раз, когда вы запускаете свой алгоритм на одних и тех же группах, результаты почти идентичны и/или вообще ничего не меняется.

Обновление

Apache Mahout предоставляет множество полезных алгоритмов и примеров кластеризации, классификации, генетического программирования, леса решений, анализа рекомендаций. Вот некоторые примеры классификации текста от mahout:

Я не уверен, какой из них лучше всего подходит для вашей проблемы, но, возможно, если вы просмотрите их, вы поймете, какой из них наиболее подходит для вашего конкретного приложения.

4
ответ дан 7 December 2019 в 07:37
поделиться
Другие вопросы по тегам:

Похожие вопросы: