Учитывая большой (10 ГБ) CSV-файл со смешанным текстом и числами, каков самый быстрый способ создать файл HDF5 с тем же содержанием? сохраняя разумное использование памяти?
Я бы хотел использовать модуль h5py
, если это возможно.
В приведенном ниже примере игрушки я нашел невероятно медленный и невероятно быстрый способ записи данные в HDF5. Было бы лучше записывать в HDF5 куски по 10 000 строк или около того? Или есть лучший способ записать большой объем данных в такой файл?
import h5py
n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')
# this is terribly slow
for i in xrange(n):
dset[i] = i
# instantaneous
dset[...] = 42