Как создать собственный текст NLTK из текстового файла?

Я аспирант факультета литературы и просматривал книгу О'Рейли по обработке естественного языка (nltk.org/book ). ]. Это выглядит невероятно полезным. Я поиграл со всеми примерами текстов и примерами задач в главе 1, такими как согласование. Теперь я знаю, сколько раз Моби Дик использует слово «кит». Проблема в том, что я не могу понять, как сделать эти вычисления для одного из моих собственных текстов. Я нашел информацию о том, как создать свои собственные корпуса (Ch. 2 книги О'Рейли ), но я не думаю, что это именно то, чем я хочу заниматься. Другими словами, я хочу иметь возможность выполнить

import nltk 
text1.concordance('yellow')

и получить места, где слово «желтый» используется в моем тексте. На данный момент я могу сделать это с примерами текстов, но не со своими.

Я новичок в Python и программировании, поэтому все это очень интересно, но очень запутанно.

31
задан Jonathan 6 May 2012 в 00:13
поделиться