2 основных вопроса, которые беспокоят меня:
- Как я могу быть уверен, что каждый из 32 файлов, которые улей использует для хранения моих таблиц, находится на своем уникальный компьютер?
- Если это произойдет, как я могу быть уверен, что если hive создаст 32 модуля сопоставления, каждый из них будет работать со своими локальными данными? Гарантирует ли hadoop / hdfs эту магию или hive как интеллектуальное приложение гарантирует, что это произойдет?
Справочная информация:
У меня есть кластер-улей из 32 машин, и:
- Все мои таблицы созданы с помощью
«КЛАСТЕРИРОВАНЫ ПО (MY_KEY) НА 32 ВЕДРА»
- Я использую
hive.enforce.bucketing = true;
- Я проверил, и действительно, каждая таблица хранится как 32 файла в пользовательском / улье / хранилище
- Я использую коэффициент репликации HDFS, равный 2
Спасибо!
задан ihadanny 4 August 2011 в 12:56
поделиться