Кто-то может дать высокий уровень, простое объяснение новичку о том, как Hadoop работает?

Я знаю, как memcached работает. Как Hadoop работает?

7
задан TIMEX 23 March 2010 в 02:24
поделиться

1 ответ

Hadoop состоит из нескольких компонентов, которые являются подпроектами проекта Apache Hadoop. Два основных из них - Hadoop Distributed File System (HDFS) и MapReduce framework.

Идея заключается в том, что вы можете объединить в сеть несколько готовых компьютеров для создания кластера. HDFS работает на кластере. По мере добавления данных в кластер они разбиваются на большие куски/блоки (обычно 64 МБ) и распределяются по кластеру. HDFS позволяет реплицировать данные для восстановления после аппаратных сбоев. Она почти ожидает аппаратных сбоев, поскольку предназначена для работы со стандартным оборудованием. HDFS основана на документе Google об их распределенной файловой системе GFS.

Фреймворк Hadoop MapReduce работает над данными, хранящимися в HDFS. Цель "заданий" MapReduce - обеспечить возможность обработки данных на основе ключ/значение в высокопараллельном режиме. Поскольку данные распределены по кластеру, задание MapReduce может быть разделено на части для выполнения множества параллельных процессов над данными, хранящимися на кластере. Map-части MapReduce работают только с теми данными, которые они могут видеть, то есть с блоками данных на конкретной машине, на которой они выполняются. Reduce объединяет результаты работы карт.

В результате получается система, обеспечивающая высококлассные возможности пакетной обработки данных. Система хорошо масштабируется, так как вам просто нужно добавить больше оборудования, чтобы увеличить возможности хранения данных или уменьшить время выполнения задания MapReduce.

Некоторые ссылки:

9
ответ дан 7 December 2019 в 03:13
поделиться
Другие вопросы по тегам:

Похожие вопросы: