Я пытаюсь сгенерировать униграмму из текстового файла. Но отображается только биграмма для первой строки данного файла. Я хочу показать униграмму для всех предложений в файле.
import string;
import sys;
import tokenize;
f = open("data.txt", 'r');
line=f.readline();
while line:
line = line.rstrip();
list = line.split();
for word in list:
print word
line = f.readline();
Почему не отображается униграмма для предложений, а также как я могу превратить это в биграмму?
Заранее спасибо.
data.txt - это текстовый файл, содержащий предложения. Он состоит из двух предложений -
Hello world this is a test code
today is 29th november 2011
я получаю вывод:
Hello
world
this
is
a
test
код