Вот пример коллекции "join" * Актеры и фильмы:
https://github.com/mongodb/cookbook/blob/master/ content / patterns / pivot.txt
Использует метод .mapReduce()
* join - альтернативу объединению в документарно-ориентированных базах данных
Я думаю, что вы используете Cloudera Hadoop. В версиях Spark 2.x произошли значительные изменения по сравнению с версиями 1.x. В некотором смысле, есть проблемы совместимости. Поэтому, когда ваши существующие производственные задания, которые использовали версию 1.x, работают на 2.x, есть больше шансов, что ваша работа может потерпеть неудачу.
Просто для обеспечения обратной совместимости, Cloudera добавил «spark2-submit» и попросил пользователей использовать его для всех заданий «go-forward». И "spark-submit" все равно будет использовать версию 1.x, и вам не нужно трогать какие-либо рабочие задания.
Так что это просто из соображений совместимости.
Вы можете использовать spark-submit для Spark 2.X после установки следующих переменных среды:
1) SPARK_HOME для пути к клиенту spark2 (например, / usr / hdp / current / spark2-client) 2) SPARK_MAJOR_VERSION = 2
Используя эти две конфигурации, даже если на кластере установлены Spark 1.x и Spark 2.x, вы можете запускать задания с использованием Spark 2.x с помощью одних и тех же команд, таких как spark-shell, spark -submit