Я пытаюсь обучить наивный байесовский классификатор с извлечением позитивных / негативных слов из настроения. пример:
Я люблю этот фильм :))
Ненавижу, когда идет дождь :(
Идея в том, что я извлекаю положительные или отрицательные предложения на основе используемых эмоций, но для того, чтобы обучить классификатор и сохранить его в базе данных.
Проблема в том, что у меня более 1 миллиона таких предложений, поэтому, если я тренирую его слово за словом, база данных перестанет работать. Я хочу удалить все нерелевантные слова, например «я», «это», «когда», «оно», чтобы количество запросов к базе данных было меньше.
Пожалуйста, помогите мне решить эту проблему и посоветуйте мне более эффективные способы решения этой проблемы
Спасибо