Как hive / hadoop гарантирует, что каждый модуль отображения работает с локальными для него данными?

2 основных вопроса, которые беспокоят меня:

  • Как я могу быть уверен, что каждый из 32 файлов, которые улей использует для хранения моих таблиц, находится на своем уникальный компьютер?
  • Если это произойдет, как я могу быть уверен, что если hive создаст 32 модуля сопоставления, каждый из них будет работать со своими локальными данными? Гарантирует ли hadoop / hdfs эту магию или hive как интеллектуальное приложение гарантирует, что это произойдет?

Справочная информация: У меня есть кластер-улей из 32 машин, и:

  • Все мои таблицы созданы с помощью «КЛАСТЕРИРОВАНЫ ПО (MY_KEY) НА 32 ВЕДРА»
  • Я использую hive.enforce.bucketing = true;
  • Я проверил, и действительно, каждая таблица хранится как 32 файла в пользовательском / улье / хранилище
  • Я использую коэффициент репликации HDFS, равный 2

Спасибо!

5
задан ihadanny 4 August 2011 в 12:56
поделиться