spark2-submit отличается от spark-submit

Question

spark2-submit отличается от spark-submit

Вот пример коллекции "join" * Актеры и фильмы:

https://github.com/mongodb/cookbook/blob/master/ content / patterns / pivot.txt

Использует метод .mapReduce()

* join - альтернативу объединению в документарно-ориентированных базах данных

0

apache-spark

задан techie 17 January 2019 в 14:23

2 ответа

Другие вопросы по тегам:

apache-spark

Похожие вопросы:

score 0 · Answer 1

Я думаю, что вы используете Cloudera Hadoop. В версиях Spark 2.x произошли значительные изменения по сравнению с версиями 1.x. В некотором смысле, есть проблемы совместимости. Поэтому, когда ваши существующие производственные задания, которые использовали версию 1.x, работают на 2.x, есть больше шансов, что ваша работа может потерпеть неудачу.

Просто для обеспечения обратной совместимости, Cloudera добавил «spark2-submit» и попросил пользователей использовать его для всех заданий «go-forward». И "spark-submit" все равно будет использовать версию 1.x, и вам не нужно трогать какие-либо рабочие задания.

Так что это просто из соображений совместимости.

score 0 · Answer 2

Вы можете использовать spark-submit для Spark 2.X после установки следующих переменных среды:

1) SPARK_HOME для пути к клиенту spark2 (например, / usr / hdp / current / spark2-client) 2) SPARK_MAJOR_VERSION = 2

Используя эти две конфигурации, даже если на кластере установлены Spark 1.x и Spark 2.x, вы можете запускать задания с использованием Spark 2.x с помощью одних и тех же команд, таких как spark-shell, spark -submit