Как лучше всего запускать Map/Reduce на данных из Mongo?

У меня есть большая база данных Mongo (100 ГБ), размещенная в облаке (MongoLab или MongoHQ). Я хотел бы запустить некоторые задачи Map/Reduce для данных, чтобы вычислить некоторую дорогостоящую статистику, и мне было интересно, какой рабочий процесс лучше всего подходит для этого. В идеале я хотел бы использовать сервисы Amazon Map/Reduce вместо того, чтобы поддерживать свой собственный кластер Hadoop.

Имеет ли смысл копировать данные из БД на S3. Затем запустить на нем Amazon Map/Reduce? Или есть лучшие способы сделать это.

Кроме того, если в будущем я, возможно, захочу запускать запросы часто, например, каждый день, чтобы данные на S3 должны были отражать то, что есть в Mongo, усложнит ли это ситуацию?

Любые предложения/военные истории будут очень полезны.

12
задан nickponline 12 June 2012 в 10:01
поделиться