Хороший алгоритм анализа тональности

Я попробовал наивный байесовский классификатор, и он работает очень плохо. SVM работает немного лучше, но все равно ужасно. Большинство статей, которые я читал о SVM и наивном байесе с некоторыми вариациями (n-gram, POS и т. д.), но все они дают результаты, близкие к 50% (авторы статей говорят о 80% и выше, но я не могу получить такие же точные на реальных данных).

Есть ли более мощные методы, кроме лексического анализа? SVM и Байес предполагают, что слова независимы. Такой подход называется «мешок слов». Что, если мы предположим, что слова связаны?

Например: Используйте априорный алгоритм, чтобы обнаружить, что если предложения содержат слова «плохое и ужасное», то с вероятностью 70% это предложение будет отрицательным. Также мы можем использовать расстояние между словами и так далее.

Это хорошая идея или я изобретаю велосипед?

7
задан Ian Mercer 11 June 2012 в 14:09
поделиться