Я работаю над проектом, который включает использование python для чтения, обработки и записи файлов, размер которых иногда достигает нескольких сотен мегабайт. Программа иногда дает сбой, когда я пытаюсь обработать некоторые особенно большие файлы. В нем не говорится «ошибка памяти», но я подозреваю, что проблема (в этом, на самом деле нет никаких причин для сбоя» ).
Я тестировал код на небольших файлах и смотрел «top», чтобы увидеть, на что похоже использование памяти, и обычно оно достигает 60%. top говорит, что у меня 4050352k общей памяти, поэтому 3.8Gb.
Тем временем я пытаюсь отслеживать использование памяти внутри самого python (см. мой вопрос от вчера)со следующим небольшим фрагментом кода:
mem = 0
for variable in dir():
variable_ = vars()[variable]
try:
if str(type(variable_))[7:12] == 'numpy':
numpy_ = True
else:
numpy_ = False
except:
numpy_ = False
if numpy_:
mem_ = variable_.nbytes
else:
mem_ = sys.getsizeof(variable)
mem += mem_
print variable+ type: '+str(type(variable_))+' size: '+str(mem_)
print 'Total: '+str(mem)
Перед запуском этого блока я устанавливаю для всех переменных, которые мне не нужны, значение None, закрываю все файлы и рисунки и т. д. После этого блока я использую subprocess.call ()для запуска программы на фортране, которая требуется для следующего этапа. обработки. Глядя на верхнюю часть во время работы программы fortran, видно, что программа fortran использует ~100% процессора и ~5% памяти, а этот python использует 0% процессора и 53% памяти. Однако мой небольшой фрагмент кода говорит мне, что все переменные в python в сумме составляют всего 23 МБ, что должно быть ~0,5%.
Так что же происходит? Я бы не ожидал, что этот небольшой фрагмент даст мне представление об использовании памяти, но он должен быть точным с точностью до нескольких МБ? Или просто top не замечает, что память была освобождена, но что она доступна другим программам, которым она нужна, если это необходимо?
В соответствии с просьбой, вот упрощенная часть кода, которая использует всю память (файл _name.cub — это куб ISIS3,это файл, содержащий 5 слоев (диапазонов )одной и той же карты, первый слой — спектральная яркость, следующие 4 — широта, долгота и другие детали. Это изображение с Марса, которое я пытаюсь обработать. StartByte — это значение, которое я ранее прочитал из заголовка ascii файла.cub, указывающее мне начальный байт данных, Samples и Lines — это размеры карты, также считанные из заголовка.):
latitude_array = 'cheese' # It'll make sense in a moment
f_to = open('To_file.dat','w')
f_rad = open('file_name.cub', 'rb')
f_rad.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_rad.read(StartByte-1))
header = None
#
f_lat = open('file_name.cub', 'rb')
f_lat.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lat.read(StartByte-1))
header = None
pre=struct.unpack('%df' % (Samples*Lines), f_lat.read(Samples*Lines*4))
pre = None
#
f_lon = open('file_name.cub', 'rb')
f_lon.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lon.read(StartByte-1))
header = None
pre=struct.unpack('%df' % (Samples*Lines*2), f_lon.read(Samples*Lines*2*4))
pre = None
# (And something similar for the other two bands)
# So header and pre are just to get to the right part of the file, and are
# then set to None. I did try using seek(), but it didn't work for some
# reason, and I ended up with this technique.
for line in range(Lines):
sample_rad = struct.unpack('%df' % (Samples), f_rad.read(Samples*4))
sample_rad = np.array(sample_rad)
sample_rad[sample_rad<-3.40282265e+38] = np.nan
# And Similar lines for all bands
# Then some arithmetic operations on some of the arrays
i = 0
for value in sample_rad:
nextline = sample_lat[i]+', '+sample_lon[i]+', '+value # And other stuff
f_to.write(nextline)
i += 1
if radiance_array == 'cheese': # I'd love to know a better way to do this!
radiance_array = sample_rad.reshape(len(sample_rad),1)
else:
radiance_array = np.append(radiance_array, sample_rad.reshape(len(sample_rad),1), axis=1)
# And again, similar operations on all arrays. I end up with 5 output arrays
# with dimensions ~830*4000. For the large files they can reach ~830x20000
f_rad.close()
f_lat.close()
f_to.close() # etc etc
sample_lat = None # etc etc
sample_rad = None # etc etc
#
plt.figure()
plt.imshow(radiance_array)
# I plot all the arrays, for diagnostic reasons
plt.show()
plt.close()
radiance_array = None # etc etc
# I set all arrays apart from one (which I need to identify the
# locations of nan in future) to None
# LOCATION OF MEMORY USAGE MONITOR SNIPPET FROM ABOVE
Так что я солгал в комментариях об открытии нескольких файлов, это много экземпляров одного и того же файла. Я продолжаю работать только с одним массивом, для которого не установлено значение None, и его размер составляет ~830x4000, хотя он каким-то образом составляет 50% доступной мне памяти. Я также пробовал gc.collect, но без изменений. Я был бы очень рад услышать любые советы о том, как я могу улучшить любой код (, связанный с этой проблемой или иным образом ).
Возможно, я должен упомянуть :изначально я открывал файлы полностью (, т.е. не построчно, как указано выше ), делая это построчно было первоначальной попыткой сэкономить память.