Соглашения об именах REST при использовании с Spring MVC

Это происходит потому, что вы не предоставляете схему для DataFrameReader. В результате Spark должен с нетерпением отсканировать набор данных для вывода выходной схемы.

Поскольку mappedRdd не кэшируется, он будет дважды оценен:

  • один раз для вывода схемы
  • один раз, когда вы вызываете data.show

Если вы хотите запретить вам предоставлять схему для чтения (синтаксис Scala):

val schema: org.apache.spark.sql.types.StructType = ???
spark.read.schema(schema).json(mappedRdd)
-1
задан Mariano L 29 March 2019 в 23:13
поделиться