R: Возможно ли распараллелить / ускорить чтение CSV с 20 миллионами строк в R?

Question

R: Возможно ли распараллелить / ускорить чтение CSV с 20 миллионами строк в R?

После загрузки CSV через read.csv довольно тривиально использовать multicore, segue и т.д. для работы с данными в CSV. Однако считывание данных в CSV отнимает много времени.

Понял, что лучше использовать mySQL и т.д. и т.п.

Предполагается использование вычислительного экземпляра кластера AWS 8xl под управлением R2.13

Спецификации следующие:

Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)

Любые мысли / идеи будут приняты с благодарностью.

8

r csv parallel-processing bigdata

задан n.e.w 30 January 2012 в 07:04

0 ответов

Другие вопросы по тегам:

r csv parallel-processing bigdata

R: Возможно ли распараллелить / ускорить чтение CSV с 20 миллионами строк в R?

0 ответов

Похожие вопросы: