Я начинаю заниматься распределенным кодом, и у меня возникают проблемы с определением того, какое решение соответствует моим потребностям, исходя из всего имеющегося там материала. В основном у меня есть список данных Python, которые мне нужно обработать с помощью одной функции. Эта функция имеет несколько вложенных циклов for, но не занимает много времени (около минуты) для каждого элемента в списке. Моя проблема в том, что список очень большой (3000+ пунктов). Я смотрю на многопроцессорную обработку, но думаю, что хочу поэкспериментировать с ее обработкой на нескольких серверах (потому что в идеале, если данные станут больше, я хочу иметь возможность добавлять больше серверов во время работы, чтобы она работала быстрее) .
Я в основном ищу что-то, через что я могу распространять этот список данных (и не сверх того, что нужно, но было бы неплохо, если бы я мог также распространять свою базу кода через это)
Итак, мой вопрос, какой пакет я могу использовать для достижения этой цели? Моя база данных - hbase, поэтому у меня уже был запущен hasoop (хотя никогда не использовал hadoop, просто использовал его для базы данных). Я посмотрел на сельдерей и тоже скрутил, но не понимаю, что подойдет мне.
Есть предложения?