Используя mrjob для запуска кода Python на Amazon Elastic MapReduce, я успешно нашел способ обновить numpy и scipy изображения EMR.
При запуске с консоли работают следующие команды:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
Это успешно загружает последние версии numpy и scipy в образ и работает отлично. У меня вопрос скорости. Установка на небольшой экземпляр занимает 21 минуту.
Кто-нибудь знает, как ускорить процесс обновления numpy и scipy?