Я - новичок до использования облачных вычислений, но я получаю понятие, и довольно хорошо в следовании инструкциям. Я хотел бы сделать, некоторые моделирования на моих данных и каждом шаге занимают несколько минут. Учитывая иерархию в моих данных, требуется несколько часов для каждого набора. Я хотел бы ускорить это путем выполнения его на облаке Amazon EC2.
После чтения этого я знаю, как запустить AMI, соединиться с ним через оболочку и запустить R в командной строке.
То, на чем я хотел бы справку, является способностью скопировать данные (.rdata файлы) и сценарий и просто получить ее в командной строке R. Затем после того как все результаты записаны в новые .rdata файлы, я хотел бы скопировать их назад в мою локальную машину.
Как я делаю это?
Я мало что знаю о R, но делаю то же самое с другими языками. То, что я предлагаю, вероятно, даст вам некоторые идеи.
Сценарий запуска:
#!/bin/bash
set -e -x
apt-get update && apt-get install curl + "any packages you need"
wget ftp://yourlocalmachine:21/r_files > /mnt/data_old.R
R CMD BATCH data_old.R -> /mnt/data_new.R
/usr/bin/curl -T /mnt/data_new.r -u user:pass ftp://yourlocalmachine:21/new_r_files
Запуск экземпляра со сценарием запуска
ec2-run-instances --key KEYPAIR --user-data-file my_start_up_script ami-xxxxxx