Предложения по распространению данных / кода Python по рабочим узлам?

Я начинаю заниматься распределенным кодом, и у меня возникают проблемы с определением того, какое решение соответствует моим потребностям, исходя из всего имеющегося там материала. В основном у меня есть список данных Python, которые мне нужно обработать с помощью одной функции. Эта функция имеет несколько вложенных циклов for, но не занимает много времени (около минуты) для каждого элемента в списке. Моя проблема в том, что список очень большой (3000+ пунктов). Я смотрю на многопроцессорную обработку, но думаю, что хочу поэкспериментировать с ее обработкой на нескольких серверах (потому что в идеале, если данные станут больше, я хочу иметь возможность добавлять больше серверов во время работы, чтобы она работала быстрее) .

Я в основном ищу что-то, через что я могу распространять этот список данных (и не сверх того, что нужно, но было бы неплохо, если бы я мог также распространять свою базу кода через это)

Итак, мой вопрос, какой пакет я могу использовать для достижения этой цели? Моя база данных - hbase, поэтому у меня уже был запущен hasoop (хотя никогда не использовал hadoop, просто использовал его для базы данных). Я посмотрел на сельдерей и тоже скрутил, но не понимаю, что подойдет мне.

Есть предложения?

6
задан Lostsoul 16 February 2012 в 20:54
поделиться