униграмма с использованием python

Я пытаюсь сгенерировать униграмму из текстового файла. Но отображается только биграмма для первой строки данного файла. Я хочу показать униграмму для всех предложений в файле.

import string;
import sys;
import tokenize;

f = open("data.txt", 'r');
line=f.readline();
while line:
    line = line.rstrip();
    list = line.split();
    for word in list:
         print word
    line = f.readline();

Почему не отображается униграмма для предложений, а также как я могу превратить это в биграмму?

Заранее спасибо.

data.txt - это текстовый файл, содержащий предложения. Он состоит из двух предложений -

        Hello world this is a test code
        today is 29th november 2011

я получаю вывод:

    Hello
    world
    this
    is
    a
    test

код

0
задан user1052462 29 November 2011 в 15:06
поделиться