После загрузки CSV через read.csv
довольно тривиально использовать multicore
, segue
и т.д. для работы с данными в CSV. Однако считывание данных в CSV отнимает много времени.
Понял, что лучше использовать mySQL и т.д. и т.п.
Предполагается использование вычислительного экземпляра кластера AWS 8xl под управлением R2.13
Спецификации следующие:
Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)
Любые мысли / идеи будут приняты с благодарностью.