Это правда, что есть еще известные проблемы из-за определенных зависимостей от фактической HDFS; Документы не предназначались для того, чтобы подразумевать, что установка fs.defaultFS на путь GCS во время создания кластера будет работать, а просто для того, чтобы предоставить удобный пример свойства, которое появляется в core-site.xml
; теоретически было бы целесообразно, например, установить fs.defaultFS
в другой ранее существовавший кластер HDFS. Я подал заявку на изменение примера в документации, чтобы избежать путаницы.
Два варианта:
fs.defaultFS
во время отправки задания, используя свойства для задания fs.defaultFS
явным образом используя действие инициализации вместо свойств кластера. Вариант 1 лучше подходит для работы, поскольку зависимости HDFS на уровне кластера не изменятся. Вариант 2 работает, потому что большинство несовместимостей возникает только во время первоначального запуска, а действия по инициализации запускаются после запуска соответствующих демонов. Чтобы переопределить настройку в действии инициализации, вы должны использовать bdconfig
:
bdconfig set_property \
--name 'fs.defaultFS' \
--value 'gs://my-bucket' \
--configuration_file /etc/hadoop/conf/core-site.xml \
--clobber