apache-spark-2.0 - список вопросов по программированию apache-spark-2.0

2

ответа

Проблемы создания RDD LabeledPoint из dataframe в pyspark [duplicate]

Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...

вопрос задан: 28 December 2016 16:45

2

ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...

apache-spark hive pyspark cloudera apache-spark-2.0

вопрос задан: 29 March 2016 16:38

1

ответ

разделение с помощью искры разрывает цепочку отложенных вычислений и вызывает ошибку, которую я не могу уловить

При выполнении перераспределения искра разрывает цепочку ленивых вычислений и вызывает ошибку, которую я не могу контролировать / ловить. // симуляция чтения потока из s3 def readFromS3 (partition: Int) ...

scala apache-spark apache-spark-2.0

вопрос задан: 22 March 2019 21:54

1

ответ

Невозможно проглотить DF для эластичного поиска

Я читаю паркетный файл в spark-scala и занимаюсь вычислениями и фильтрацией. Я хочу проглотить полученный фрейм данных вasticsearch. Я пробовал следующие https: //www.elastic.co/guide/en / ...

elasticsearch apache-spark-sql apache-spark apache-spark-2.0

вопрос задан: 17 January 2019 11:11