Самый быстрый способ записать файлы HDF5 с помощью Python?

Учитывая большой (10 ГБ) CSV-файл со смешанным текстом и числами, каков самый быстрый способ создать файл HDF5 с тем же содержанием? сохраняя разумное использование памяти?

Я бы хотел использовать модуль h5py , если это возможно.

В приведенном ниже примере игрушки я нашел невероятно медленный и невероятно быстрый способ записи данные в HDF5. Было бы лучше записывать в HDF5 куски по 10 000 строк или около того? Или есть лучший способ записать большой объем данных в такой файл?

import h5py

n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')

# this is terribly slow
for i in xrange(n):
  dset[i] = i

# instantaneous
dset[...] = 42
21
задан Lii 15 May 2018 в 07:52
поделиться