Я подумал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK , но она не дает ответ. Я новичок в Python.
У меня есть куча . txt
, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data
.
Я пробовал PlaintextCorpusReader
, но не смог продвинуться дальше:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Как сегментировать предложения newcorpus
с помощью пунктов? Я попытался использовать функции punkt, но функции punkt не смогли прочитать класс PlaintextCorpusReader
?
Можете ли вы также рассказать мне, как я могу записать сегментированные данные в текстовые файлы?