Создание пользовательского категоризированного корпуса в NLTK и Python

У меня возникла небольшая проблема, связанная с регулярными выражениями и CategorizedPlaintextCorpusReaderв Python.

Я хочу создать собственный категоризированный корпус и обучить на нем наивный -байесовский классификатор. Моя проблема заключается в следующем :Я хочу иметь две категории: «pos» и «neg». Все положительные файлы находятся в одном каталоге main_dir/pos/*.txt, а отрицательные — в отдельном каталоге main_dir/neg/*.txt.

Как я могу использовать CategorizedPlaintextCorpusReaderдля загрузки и маркировки всех положительных файлов в каталоге pos и сделать то же самое для отрицательных?

NB :Настройка абсолютно такая же, как у Movie_reviewsкорпуса(~nltk_data\corpora\movie_reviews).

10
задан jogojapan 6 May 2012 в 00:36
поделиться