1 миллион предложений для сохранения в БД - удаление нерелевантных английских слов

Я пытаюсь обучить наивный байесовский классификатор с извлечением позитивных / негативных слов из настроения. пример:

Я люблю этот фильм :))

Ненавижу, когда идет дождь :(

Идея в том, что я извлекаю положительные или отрицательные предложения на основе используемых эмоций, но для того, чтобы обучить классификатор и сохранить его в базе данных.

Проблема в том, что у меня более 1 миллиона таких предложений, поэтому, если я тренирую его слово за словом, база данных перестанет работать. Я хочу удалить все нерелевантные слова, например «я», «это», «когда», «оно», чтобы количество запросов к базе данных было меньше.

Пожалуйста, помогите мне решить эту проблему и посоветуйте мне более эффективные способы решения этой проблемы

Спасибо

6
задан Fred Foo 24 November 2010 в 11:00
поделиться