Использование моего собственного корпуса для классификации категорий в Python NLTK

Я новичок в NTLK / Python, и мне удалось загрузить свой собственный корпус с помощью CategoryizedPlaintextCorpusReader, но как мне на самом деле обучить и использовать данные для классификации текста?

>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234
7
задан Fred Foo 11 January 2012 в 11:34
поделиться