О разделении файлов Hadoop / HDFS

Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это: 1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64 МБ = размер блока HDFS) разбивается на несколько фрагментов, и каждый фрагмент хранится на разных узлах данных.

  1. Содержимое файла уже разделено на части, когда файл копируется в HDFS, и этого разделения файла не происходит во время выполнения задания карты. Задачи карты планируются только таким образом, чтобы они работали с каждым фрагментом макс. размер 64 МБ с локальностью данных (т. е. задача карты выполняется на том узле, который содержит данные / фрагмент)

  2. Разделение файла также происходит, если файл сжат (gzip), но MR гарантирует, что каждый файл обрабатывается только одним картографом, т. е. MR соберет все фрагменты файла gzip, лежащие на других узлах данных, и передаст их одному сопоставителю.

  3. То же, что и выше, произойдет, если мы определим isSplitable () для возврата false, т.е. все фрагменты файла будут обрабатываться одним сопоставителем, запущенным на одной машине. MR будет читать все фрагменты файла из разных узлов данных и делать их доступными для одного сопоставителя.

17
задан sunillp 13 February 2012 в 10:36
поделиться