Я новичок в NTLK / Python, и мне удалось загрузить свой собственный корпус с помощью CategoryizedPlaintextCorpusReader, но как мне на самом деле обучить и использовать данные для классификации текста?
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234