алгоритм для вычисления сходства между текстами

Question

алгоритм для вычисления сходства между текстами

Я пытаюсь оценить сходство между постами в социальных сетях, но не нашел хороших алгоритмов для этого, мысли?

I только что попробовал Левенштейна, JaroWinkler и других, но те, которые больше используются для сравнения текстов без настроений. В постах мы можем получить один текст с надписью «Я действительно люблю собак», а другой - «Я действительно ненавижу собак», мы должны классифицировать этот случай как совершенно другой.

Спасибо

7

java text artificial-intelligence nlp mining

задан Aaron Novstrup 27 August 2010 в 16:24

2 ответа

Ааа... но "я действительно люблю собак" и "я действительно ненавижу собак" полностью похожи ;), оба обсуждают чувства к собакам. Кажется, вы пропустили один шаг:

Запустите свой алгоритм и получите общие тематические группы (например, «чувства по отношению к собакам»).
Запустите ваш алгоритм еще раз, но на этот раз для каждой ранее «обнаруженной» группы, и пусть ваш алгоритм далее классифицирует их по подгруппам (например, «я ненавижу собак»/«я люблю собак»).

Если ваш алгоритм настраивается на основе своего опыта (т. е. требуется некоторое обучение)., затем убедитесь, что вы запускаете отдельные экземпляры алгоритма для первой классификации и новый экземпляр алгоритма для каждой подклассификации... если вы этого не сделаете, вы можете получить случай, когда вы найдете несколько групп и каждый раз, когда вы запускаете свой алгоритм на одних и тех же группах, результаты почти идентичны и/или вообще ничего не меняется.

Обновление

Apache Mahout предоставляет множество полезных алгоритмов и примеров кластеризации, классификации, генетического программирования, леса решений, анализа рекомендаций. Вот некоторые примеры классификации текста от mahout:

Я не уверен, какой из них лучше всего подходит для вашей проблемы, но, возможно, если вы просмотрите их, вы поймете, какой из них наиболее подходит для вашего конкретного приложения.

4

ответ дан 7 December 2019 в 07:37

Другие вопросы по тегам:

java text artificial-intelligence nlp mining

алгоритм для вычисления сходства между текстами

2 ответа

Обновление

Похожие вопросы: