Как я должен настроить Amazon EC2 для выполнения parallelizable информационно емких вычислений?

У меня есть вычислительный интенсивный проект, который очень parallelizable: в основном у меня есть функция, что я должен работать на каждом наблюдении в большой таблице (Postgresql). Сама функция является сохраненной процедурой Python.

Amazon EC2 походит на превосходное пригодное для проекта.

Мой вопрос - это: я должен сделать пользовательское изображение (AMI), который уже содержит базу данных? Это, казалось бы, имело бы преимущество уменьшения передачи данных и создания простого распараллеливания: каждое изображение могло добраться, некоторый присвоенный блок индексов, чтобы вычислить, например, отобразить 1 добирается 1:100, отобразите 2 101:200 и т.д. Разделение данных и экземпляров (который предлагает большинство руководств с практическими рекомендациями), кажется, не имеет смысл для моего приложения, но я очень плохо знаком с этим так, я не уверен, что моя интуиция является правильной.

1
задан John Horton 13 August 2010 в 23:40
поделиться

2 ответа

вы определенно захотите хранить данные и экземпляр сервера отдельно, чтобы изменения в ваших данных сохранялись, когда вы закончите работу с экземпляром. Лучше всего начать с базового образа, в котором есть платформа ОС и базы данных, которую вы хотите использовать, настроить его в соответствии с вашими потребностями, а затем смонтировать один или несколько томов EBS, содержащих ваши данные. Вы также можете создать свой собственный экземпляр сервера после того, как закончите настройку, если то, что вы делаете, не является достаточно простым.

некоторые полезные ссылки:

http://docs.amazonwebservices.com/AmazonEC2/gsg/2006-10-01/creating-an-image.html http://developer.amazonwebservices.com/ connect / entry.jspa? categoryID = 100 & externalID = 1663

(вы сказали, что postgres, но это руководство по mysql охватывает те же базовые концепции, которые вы хотите иметь в виду)

1
ответ дан 2 September 2019 в 22:10
поделиться

Если у вас уже есть функция, реализованная на Python, самым простым путем может быть просмотр PiCloud , который просто дает вам действительно простой интерфейс для запуска Python. функция на EC2, обрабатывая почти все остальное за вас. Будет ли это экономически целесообразным, будет зависеть от того, сколько данных должно быть отправлено за один вызов функции, и сколько времени займет выполнение вычислений.

1
ответ дан 2 September 2019 в 22:10
поделиться
Другие вопросы по тегам:

Похожие вопросы: