Организация репозитория по проекту Hadoop

Question

Организация репозитория по проекту Hadoop

Я запускаю на новом проекте Hadoop, который будет иметь несколько hadoop заданий (и следовательно несколько файлов банки). Используя подвижный для управления исходным кодом, я задавался вопросом, каков будет оптимальный способ организовать структуру репозитория? Каждое задание должно жить в отдельном repo, или было бы более эффективно удержать их то же, но разломать на папки?

6

mercurial repository hadoop organization

задан Alex N. 2 June 2010 в 00:42

1 ответ

Другие вопросы по тегам:

mercurial repository hadoop organization

Похожие вопросы:

score 1 · Accepted Answer

Если вы выполняете конвейерную обработку заданий Hadoop (вывод одного является вводом другого), я обнаружил, что лучше хранить большую часть его в том же репозитории, поскольку я склонен генерировать множество общих методов, которые могу использовать на различных должностях MR.

Лично я храню потоковые задания в отдельном репо от моих более традиционных заданий, поскольку обычно здесь нет зависимостей.

Планируете ли вы использовать DistributedCache или потоковые задания? Возможно, вам понадобится отдельный каталог для файлов, которые вы распространяете. Вам действительно нужен JAR для каждой работы Hadoop? Я обнаружил, что нет.

Если вы расскажете подробнее о том, что вы планируете делать с Hadoop, я пойму, что еще я могу предложить.