Корпус фраз для сентиментального анализа

Добрый день, Я пытаюсь написать приложение для сентиментального анализа на питоне (используя классификатор наивного байеса) с целью классифицировать фразы из новостей как положительные или отрицательные. И у меня возникли проблемы с поиском подходящего корпуса для этого. Я попытался использовать "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm), который работает нормально, но у меня есть одна большая проблема. Поскольку это список слов, а не список фраз, я наблюдаю следующую проблему, пытаясь обозначить следующее предложение:

Он не должен победить.

Это предложение классифицируется как положительное, что неверно. Причина этого в том, что «выиграть» положительно, а «не» не несет никакого смысла, поскольку «не выиграть» — это словосочетание. Может ли кто-нибудь предложить либо корпус, либо обходной путь для этой проблемы? Ваша помощь и понимание очень ценятся.

5
задан TE0 28 May 2012 в 19:56
поделиться