Как hive / hadoop гарантирует, что каждый модуль отображения работает с локальными для него данными?

Question

2 основных вопроса, которые беспокоят меня:

Как я могу быть уверен, что каждый из 32 файлов, которые улей использует для хранения моих таблиц, находится на своем уникальный компьютер?
Если это произойдет, как я могу быть уверен, что если hive создаст 32 модуля сопоставления, каждый из них будет работать со своими локальными данными? Гарантирует ли hadoop / hdfs эту магию или hive как интеллектуальное приложение гарантирует, что это произойдет?

Справочная информация: У меня есть кластер-улей из 32 машин, и:

Все мои таблицы созданы с помощью «КЛАСТЕРИРОВАНЫ ПО (MY_KEY) НА 32 ВЕДРА»
Я использую hive.enforce.bucketing = true;
Я проверил, и действительно, каждая таблица хранится как 32 файла в пользовательском / улье / хранилище
Я использую коэффициент репликации HDFS, равный 2

Спасибо!

5

hadoop hive hdfs

задан ihadanny 4 August 2011 в 12:56

0 ответов

Другие вопросы по тегам:

hadoop hive hdfs