На практике, сколько машин вам нужно, чтобы Hadoop / MapReduce / Mahout ускорили вычисления с высокой степенью распараллеливания?

Мне нужно выполнить несколько сложных вычислений с машинным обучением. В локальной сети у меня простаивает небольшое количество машин. Сколько машин мне потребуется, чтобы мои вычисления с использованием hadoop / mapreduce / mahout выполнялись значительно быстрее, чем на одной машине без этих распределенных фреймворков? Это практический вопрос вычислительных накладных расходов по сравнению с выигрышем, поскольку я предполагаю, что распределение всего времени между двумя машинами было бы хуже, чем не распределять и просто работать на одной машине (просто из-за всех накладных расходов, связанных с распределением вычислений).

Техническое примечание: некоторые тяжелые вычисления очень распараллеливаются. Все они действительны, если на каждой машине есть собственная копия необработанных данных.

6
задан John Robertson 13 July 2011 в 17:00
поделиться