Создание нового корпуса с помощью NLTK

Я подумал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK , но она не дает ответ. Я новичок в Python.

У меня есть куча . txt , и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data .

Я пробовал PlaintextCorpusReader , но не смог продвинуться дальше:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

Как сегментировать предложения newcorpus с помощью пунктов? Я попытался использовать функции punkt, но функции punkt не смогли прочитать класс PlaintextCorpusReader ?

Можете ли вы также рассказать мне, как я могу записать сегментированные данные в текстовые файлы?

80
задан halfer 9 June 2019 в 18:53
поделиться