Организация репозитория по проекту Hadoop

Я запускаю на новом проекте Hadoop, который будет иметь несколько hadoop заданий (и следовательно несколько файлов банки). Используя подвижный для управления исходным кодом, я задавался вопросом, каков будет оптимальный способ организовать структуру репозитория? Каждое задание должно жить в отдельном repo, или было бы более эффективно удержать их то же, но разломать на папки?

6
задан Alex N. 2 June 2010 в 00:42
поделиться

1 ответ

Если вы выполняете конвейерную обработку заданий Hadoop (вывод одного является вводом другого), я обнаружил, что лучше хранить большую часть его в том же репозитории, поскольку я склонен генерировать множество общих методов, которые могу использовать на различных должностях MR.

Лично я храню потоковые задания в отдельном репо от моих более традиционных заданий, поскольку обычно здесь нет зависимостей.

Планируете ли вы использовать DistributedCache или потоковые задания? Возможно, вам понадобится отдельный каталог для файлов, которые вы распространяете. Вам действительно нужен JAR для каждой работы Hadoop? Я обнаружил, что нет.

Если вы расскажете подробнее о том, что вы планируете делать с Hadoop, я пойму, что еще я могу предложить.

1
ответ дан 17 December 2019 в 22:11
поделиться
Другие вопросы по тегам:

Похожие вопросы: