Я не знаю, покрывает ли StackOverflow обработку естественного языка, таким образом, я собираюсь давать этому выстрел. Мне интересно находить семантическое сходство двух слов от определенного домена, т.е. "качество изображения" и "шум". Я провожу некоторое исследование, чтобы определить, положительны ли обзоры камер или отрицательны для конкретного атрибута камеры. (как качество изображения в каждом из обзоров).
Однако не все используют ту же самую формулировку "качество изображения" в сообщениях, таким образом, я отсутствую, чтобы видеть, существует ли способ для меня создать что-то как этот:
"качество изображения", которое включает ("шум", "цвет", "резкость", и т.д. и т.д.), таким образом, я могу перенести все все в одном большом зонтике.
Я делаю это для другого языка, таким образом, WordNet не обязательно полезен. И не, я не работаю на Google или Microsoft, таким образом, у меня нет данных из поведения нажатия людей как входные данные также.
Однако у меня действительно есть много текста, с частеречной разметкой, сегментированного и т.д.
По вашему комментарию:
См. Также следующие вопросы: поиск связанных слов , семантическое сходство двух фраз .
Взгляните на Скрытое семантическое индексирование http://en.wikipedia.org/wiki/Latent_semantic_indexing , в котором конкретно рассматривается ваша проблема. Однако вам нужно придумать способ соотнести эти мета-концепции с положительными или отрицательными настроениями. Вам должен помочь анализ тональности http://en.wikipedia.org/wiki/Sentiment_analysis .
Возможно, вы захотите взглянуть на книгу Opinion mining and sentiment analysis. Если вас интересует только сходство слов и фраз, вам может помочь этот обзорный документ: От частоты к значению: Vector Space Models of Semantics