Я нашел университетский сайт с некоторыми упражнениями и решениями для MapReduce, которые основаны только на Hadoop:
http://www.umiacs.umd.edu/~jimmylin/Cloud9/ docs / index.html
Кроме того, есть курсы от Yahoo и Google:
http://developer.yahoo.com/hadoop/tutorial/
http://code.google.com/edu/parallel /index.html
Все эти курсы работают на простом Hadoop, чтобы ответить на ваш вопрос.
Я бы также рекомендовал сайт umd. Однако похоже, что вы совсем новичок в Hadoop. Я бы порекомендовал вам книгу "Hadoop: THe Definant Guide" Тома Уайта. Она немного устарела [предназначена для версии 0.18, а не для последней 0.20+]. Прочитайте ее, выполните примеры, и вы сможете лучше судить о том, как структурировать ваш проект.
Начните с простого mapreduce на начальном уровне. На следующем уровне вы можете попробовать Pig/Hive/Hbase.
Вы не сможете по достоинству оценить Pig/Hive/Hbase, пока не столкнетесь с трудностями при использовании простого map reduce