Я столкнулся с проблемой, с которой я не встречался ни у кого на StackOverflow или даже в Google, если уж на то пошло.
Моя главная цель — иметь возможность заменять вхождения строки в файле другой строкой. Есть ли способ получить доступ ко всем строкам в файле.
Проблема в том, что когда я пытаюсь прочитать большой текстовый файл (1-2 ГБ) текста, python читает только его подмножество.
Например, я сделаю очень простую команду, такую как:
newfile = open("newfile.txt","w")
f = open("filename.txt","r")
for line in f:
replaced = line.replace("string1", "string2")
newfile.write(replaced)
И она запишет только первые 382 МБ исходного файла. Кто-нибудь сталкивался с этой проблемой ранее?
Я попробовал несколько разных решений, таких как использование:
import fileinput
for i, line in enumerate(fileinput.input("filename.txt", inplace=1)
sys.stdout.write(line.replace("string1", "string2")
Но эффект тот же. Также не работает чтение файла по частям, например, при использовании
f.read(10000)
. Я сузил его до наиболее вероятной проблемы чтения, а не проблемы записи, потому что это происходит для простой распечатки строк. Я знаю, что есть еще строки. Когда я открываю его в полнотекстовом редакторе, таком как Vim, я вижу, какой должна быть последняя строка, и это не последняя строка, которую печатает python.
Может ли кто-нибудь дать совет или что-нибудь попробовать?
В настоящее время я использую 32-разрядную версию Windows XP с 3,25 ГБ оперативной памяти и Python 2.7.
*Редактировать найденное решение (спасибо, Lattyware).Использование итератора
def read_in_chunks(file, chunk_size=1000):
while True:
data = file.read(chunk_size)
if not data: break
yield data