spark2-submit отличается от spark-submit

Вот пример коллекции "join" * Актеры и фильмы:

https://github.com/mongodb/cookbook/blob/master/ content / patterns / pivot.txt

Использует метод .mapReduce()

* join - альтернативу объединению в документарно-ориентированных базах данных

0
задан techie 17 January 2019 в 14:23
поделиться

2 ответа

Я думаю, что вы используете Cloudera Hadoop. В версиях Spark 2.x произошли значительные изменения по сравнению с версиями 1.x. В некотором смысле, есть проблемы совместимости. Поэтому, когда ваши существующие производственные задания, которые использовали версию 1.x, работают на 2.x, есть больше шансов, что ваша работа может потерпеть неудачу.

Просто для обеспечения обратной совместимости, Cloudera добавил «spark2-submit» и попросил пользователей использовать его для всех заданий «go-forward». И "spark-submit" все равно будет использовать версию 1.x, и вам не нужно трогать какие-либо рабочие задания.

Так что это просто из соображений совместимости.

0
ответ дан stack0114106 17 January 2019 в 14:23
поделиться

Вы можете использовать spark-submit для Spark 2.X после установки следующих переменных среды:

1) SPARK_HOME для пути к клиенту spark2 (например, / usr / hdp / current / spark2-client) 2) SPARK_MAJOR_VERSION = 2

Используя эти две конфигурации, даже если на кластере установлены Spark 1.x и Spark 2.x, вы можете запускать задания с использованием Spark 2.x с помощью одних и тех же команд, таких как spark-shell, spark -submit

0
ответ дан Ramdev Sharma 17 January 2019 в 14:23
поделиться
Другие вопросы по тегам:

Похожие вопросы: