2
ответа

Проблемы создания RDD LabeledPoint из dataframe в pyspark [duplicate]

Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...
вопрос задан: 28 December 2016 16:45
2
ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
вопрос задан: 29 March 2016 16:38
1
ответ

разделение с помощью искры разрывает цепочку отложенных вычислений и вызывает ошибку, которую я не могу уловить

При выполнении перераспределения искра разрывает цепочку ленивых вычислений и вызывает ошибку, которую я не могу контролировать / ловить. // симуляция чтения потока из s3 def readFromS3 (partition: Int) ...
вопрос задан: 22 March 2019 21:54
1
ответ

Невозможно проглотить DF для эластичного поиска

Я читаю паркетный файл в spark-scala и занимаюсь вычислениями и фильтрацией. Я хочу проглотить полученный фрейм данных вasticsearch. Я пробовал следующие https: //www.elastic.co/guide/en / ...
вопрос задан: 17 January 2019 11:11