Токенизация большого (>70MB) TXT-файла с помощью Python NLTK. Конкатенация и запись данных в поток ошибок

Прежде всего, я новичок в python/nltk, поэтому приношу свои извинения, если вопрос слишком прост. У меня есть большой файл, который я пытаюсь токенизировать; Я получаю ошибки памяти.

Одно из решений, о котором я читал, состоит в том, чтобы читать файл по одной строке за раз, что имеет смысл, однако при этом я получаю ошибку не может объединить объекты 'str' и 'list'. Я не уверен, почему отображается эта ошибка, так как (после прочтения файла я проверяю его тип, и это на самом деле строка.

Я попытался разделить файлы размером 7 МБ на 4 меньших размера, и при запуске я получаю: Ошибка: не удалось записать данные в поток.

Наконец, при попытке очень маленького образца файла (100 КБ или меньше) и запуске измененного кода я могу токенизировать файл.

Есть ли какие-либо представления о том, что происходит? Спасибо.

# tokenizing large file one line at a time
import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw) #str
tokens = '' 
for line in filename
        tokens+=nltk.word_tokenize(filename)
#cannot concatenate 'str' and 'list' objects

Следующие работы с небольшим файлом:

import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw)
tokens = nltk.word.tokenize(filename)
5
задан Ben 24 March 2012 в 19:11
поделиться