Мне нужно выполнить несколько сложных вычислений с машинным обучением. В локальной сети у меня простаивает небольшое количество машин. Сколько машин мне потребуется, чтобы мои вычисления с использованием hadoop / mapreduce / mahout выполнялись значительно быстрее, чем на одной машине без этих распределенных фреймворков? Это практический вопрос вычислительных накладных расходов по сравнению с выигрышем, поскольку я предполагаю, что распределение всего времени между двумя машинами было бы хуже, чем не распределять и просто работать на одной машине (просто из-за всех накладных расходов, связанных с распределением вычислений).
Техническое примечание: некоторые тяжелые вычисления очень распараллеливаются. Все они действительны, если на каждой машине есть собственная копия необработанных данных.