У меня есть большая база данных Mongo (100 ГБ), размещенная в облаке (MongoLab или MongoHQ). Я хотел бы запустить некоторые задачи Map/Reduce для данных, чтобы вычислить некоторую дорогостоящую статистику, и мне было интересно, какой рабочий процесс лучше всего подходит для этого. В идеале я хотел бы использовать сервисы Amazon Map/Reduce вместо того, чтобы поддерживать свой собственный кластер Hadoop.
Имеет ли смысл копировать данные из БД на S3. Затем запустить на нем Amazon Map/Reduce? Или есть лучшие способы сделать это.
Кроме того, если в будущем я, возможно, захочу запускать запросы часто, например, каждый день, чтобы данные на S3 должны были отражать то, что есть в Mongo, усложнит ли это ситуацию?
Любые предложения/военные истории будут очень полезны.