Я интересуюсь изучением методов для распределенных вычислений. Как Java-разработчик, я, вероятно, готов запуститься с Hadoop. Вы могли рекомендовать некоторые книги/учебные руководства/статьи для начала?
Возможно, вы можете сначала прочитать несколько статей, связанных с MapReduce и распределенными вычислениями, чтобы лучше понять их. Вот некоторые из них, которые я хотел бы порекомендовать:
MapReduce: Упрощенная обработка данных на больших кластерах, http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/
Bigtable: Распределенная система хранения структурированных данных, http://www.usenix.org/events/osdi06/tech/chang/chang_html/
Dryad: Распределенные данные-параллельные программы из последовательных строительных блоков, http://pdos.csail.mit.edu/6.824-2007/papers/isard-dryad.pdf
The landscape of parallel computing research: Взгляд из Беркли, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.8705&rep=rep1&type=pdf
С другой стороны, если вы хотите лучше узнать Hadoop, возможно, вы можете начать читать исходный код Hadoop MapReduce framework.
Вот некоторые ресурсы Yahoo! Сеть разработчиков
учебное пособие:
http://developer.yahoo.com/hadoop/tutorial/
вводный курс (требуется Siverlight, вздох):
В настоящее время я бы посмотрел по книге - Полное руководство по Hadoop . Его написал Том Уайт, который работал над Hadoop долгое время и работает в Cloudera с Дугом Каттингом (создателем Hadoop).
Также на бесплатной стороне Джимми Лин из UMD написал книгу под названием: Обработка текста с интенсивным использованием данных с помощью MapReduce . Вот ссылка на окончательную предварительную версию (ссылка предоставлена автором на его веб-сайте ).
Подкаст All Things Hadoop http://allthingshadoop.com/podcast имеет хороший контент и хороших гостей. Многие из них предназначены для начала работы с распределенными вычислениями.