Пытаюсь загрузить в память пару файлов. Файлы имеют один из следующих 3-х форматов:
Действительно, это файлы статики ngram, на случай, если это поможет с решением. Например:
i_love TAB 10
love_you TAB 12
В настоящее время псевдокод, который я сейчас делаю, таков
loadData(file):
data = {}
for line in file:
first, second = line.split('\t')
data[first] = int(second) #or float(second)
return data
К моему большому удивлению, хотя общий размер файлов на диске составляет около 21 мб, при загрузке в память процесс занимает 120 -180 мб памяти! (Все приложение Python не загружает никаких других данных в память).
Существует менее 10 файлов, большинство из них останутся стабильными на уровне около 50-80k строк, за исключением одного файла, который в настоящее время содержит миллионы строк.
Поэтому я хотел бы попросить метод/структуру данных для уменьшения потребления памяти.:
Большое спасибо. Я с нетерпением жду вашего совета.