У меня возникла небольшая проблема, связанная с регулярными выражениями и CategorizedPlaintextCorpusReader
в Python.
Я хочу создать собственный категоризированный корпус и обучить на нем наивный -байесовский классификатор. Моя проблема заключается в следующем :Я хочу иметь две категории: «pos» и «neg». Все положительные файлы находятся в одном каталоге main_dir/pos/*.txt
, а отрицательные — в отдельном каталоге main_dir/neg/*.txt
.
Как я могу использовать CategorizedPlaintextCorpusReader
для загрузки и маркировки всех положительных файлов в каталоге pos и сделать то же самое для отрицательных?
NB :Настройка абсолютно такая же, как у Movie_reviews
корпуса(~nltk_data\corpora\movie_reviews
).