apache-spark - список вопросов по программированию apache-spark

1

ответ

sparkSession.sql, выбрасывающий исключение NullPointerException

У меня есть два класса scala, как часть моей работы с spark-sql, то есть Driver.scala и ExtractorOne.scala. Driver.scala передает различные параметры, такие как объект sparkSession и т. Д., В различные экстракторы, такие как ...

вопрос задан: 16 January 2019 08:18

1

ответ

Есть ли общий способ прочитать многострочный JSON в искре. Точнее искра?

У меня есть многострочный json, такой как {"_id": {"$ oid": "50b59cd75bed76f46522c34e"}, "student_id": 0, "class_id": 2, "Scores": [{"type": "exam", "score": 57.92947112575566}, {"type": "...

python json apache-spark pyspark

вопрос задан: 16 January 2019 05:54

1

ответ

Как выполнить поиск по сетке для Random Forest с использованием библиотеки Apache Spark ML

Я хочу выполнить поиск по сетке на моей модели случайного леса в Apache Spark. Но я не могу найти пример для этого. Есть ли пример на данных образца, где я могу сделать гипер-настройку параметров, используя ...

apache-spark apache-spark-mllib

вопрос задан: 15 January 2019 21:37

1

ответ

Пробовал импортировать Java 8 JDK для PySpark, но PySpark все еще не позволяет мне начать сеанс

Хорошо, вот моя основная информация, прежде чем я продолжу: MacBook Pro: OS X 10.14.2 Python Версия: 3.6.7 Java JDK: V8.u201 Я пытаюсь установить Apache Spark Python API (PySpark) на мой компьютер. Я сделал ...

pyspark java-8 apache-spark python java

вопрос задан: 15 January 2019 20:47

1

ответ

S3 параллельное чтение и запись производительности?

Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1 ТБ) файл с S3. Как несколько искровых исполнителей параллельно читают очень большой файл из S3. В HDFS это очень ...

apache-spark hadoop parallel-processing amazon-s3

вопрос задан: 15 January 2019 19:02

1

ответ

Как передать параметр в spark submit, который не начинается с spark

Мы можем использовать --conf spark.app.country = US для отправки параметров в исходный код в команде оболочки shell submit. Но для таких конфигураций, как oracle.net.tns_admin и java.security.egd, они не начинаются с ...

shell apache-spark

вопрос задан: 15 January 2019 18:28

1

ответ

Конфигурация Redis и Pyspark

У нас есть одна тестовая виртуальная машина EC2 с spark master и 3 работника spark, какие настройки нужно сделать, чтобы Redis работал с PySpark? Благодарю.

apache-spark redis pyspark

вопрос задан: 15 January 2019 18:01

1

ответ

Как сделать сумму столбцов и сделать ее доступной как столбец в Spark SQL

У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых столбцов без вмешательства в другие столбцы. Например, вот мой набор данных data_set, vol, канал Dak, 10, ABC ...

apache-spark-sql apache-spark

вопрос задан: 15 January 2019 17:19

1

ответ

Конвертировать нулевые значения в пустой массив в Spark DataFrame

У меня есть фрейм данных Spark, где один столбец является массивом целых чисел. Столбец обнуляется, потому что он исходит из левого внешнего соединения. Я хочу преобразовать все нулевые значения в пустой массив, чтобы я не ...

apache-spark-1.5 apache-spark-sql dataframe apache-spark

вопрос задан: 6 January 2019 17:54

1

ответ

Apache Spark - назначить результат UDF нескольким столбцам данных

Я использую pyspark, загружая большой файл csv в фрейм данных с помощью spark-csv, и в качестве шага предварительной обработки мне нужно применить различные операции к данным, доступным в одном из столбцов (что ...

user-defined-functions apache-spark-sql pyspark apache-spark python

вопрос задан: 6 January 2019 08:56

1

ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...

apache-spark hadoop compression hdfs rdd

вопрос задан: 13 July 2018 21:38

1

ответ

Spark Java API: как преобразовать JavaRDD в тип RDD

Я пытаюсь преобразовать код, написанный с использованием Dataframe в DataSet API. Проблема в том, что я создал JavaRDD как: final JavaRDD & lt; String & gt; abcJavaRdd = jsc.textFile ("/ path / to / textfile"); Но ...

java apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 13 July 2018 21:35

1

ответ

Вложенные массивы pyspark взрываются

У меня есть кадр данных следующим образом: df = spark.createDataFrame ([(1, "2017-12-03", "" "{" 1 ": [{" john ": [12443,12441]," james ": [14380,14379,13463], "Майк": [...

apache-spark pyspark

вопрос задан: 13 July 2018 20:47

1

ответ

Почему apache spark не работает с java 10?

Есть ли какая-либо техническая причина, почему искра 2.3 не работает с java 1.10 (по состоянию на июль 2018 года)? Вот результат, когда я запускаю пример SparkPi с использованием spark-submit. $ ./bin/spark-submit ./examples/src / ...

java apache-spark jvm

вопрос задан: 13 July 2018 20:09

1

ответ

Spark Standalone Cluster: настройка распределенной файловой системы

Я только что перешел из локальной установки Spark в автономный кластер Spark. Очевидно, что загрузка и сохранение файлов больше не работает. Я понимаю, что мне нужно использовать Hadoop для сохранения и загрузки файлов. Мой ...

apache-spark hadoop

вопрос задан: 13 July 2018 19:47

1

ответ

Как программно определить среду Databricks

Я пишу искровое задание, которое должно быть запущено локально, а также Databricks. Код должен быть немного другим в каждой среде (пути к файлу), поэтому я пытаюсь найти способ обнаружения, если ...

java apache-spark databricks

вопрос задан: 13 July 2018 16:13

1

ответ

pyspark добавляет очень большие множественные числовые кадры после каждого процесса в цикле for (например: добавляет после ежедневного ETL)

Я должен делать ETL для каждого дня, а затем добавлять его к одному файлу данных. Например: после каждого дня ETL следуют выходы .. df1: id category количество дата 1 abc 100 01-07-18 2 ...

python apache-spark pyspark

вопрос задан: 13 July 2018 12:12

1

ответ

Извлечь вложенный массив из строки Spark SQL внутри UDF

Я работаю с DataFrames и нуждаюсь в извлечении данных. У меня много вложенных уровней, поэтому я сделал первый уровень с взрывами и выборами, но затем я использую UDF для вложенных уровней. У меня есть UDF, берущий $ Root ....

scala apache-spark dataframe apache-spark-sql

вопрос задан: 13 July 2018 11:46

1

ответ

Scala Сравнение значений в 2 шаблонах Spark

Я пытаюсь написать оператор условия для объединения двух шаблонов данных Spark вместе в Scala: val joinCondition = когда ($ "filterRESULT.key" == $ "allDataUSE.key" & amp; $ "allDataUSE.timestamp" & gt; .. ,

scala apache-spark

вопрос задан: 13 July 2018 11:41

1

ответ

Как использовать функцию instr () с аргументами типа столбца в Spark

У меня проблема с использованием функции instr () в Spark. Определение функции выглядит следующим образом: instr (столбец str, строковая подстрока). Проблема в том, что мне нужно использовать значение типа столбца как второе ...

scala apache-spark apache-spark-sql

вопрос задан: 13 July 2018 08:25

1

ответ

В Spark, как вызвать UDF с UDO в качестве параметров, чтобы избежать двоичной ошибки

Я определил UDF с UDO в качестве параметров. Но когда я попытался вызвать его в dataframe, я получил сообщение об ошибке «org.apache.spark.SparkException: не удалось выполнить определенную пользователем функцию ($ anonfun $ 1: (array) = ...

apache-spark apache-spark-sql

вопрос задан: 13 July 2018 08:01

1

ответ

Sparklyr поддерживает Spark 2.3.1

Я загрузил искру версии 2.3.1, и я получил следующую ошибку: Ошибка в spark_version_from_home (spark_home, default = spark_version): Не удалось обнаружить версию из SPARK_HOME или ...

r apache-spark sparklyr

вопрос задан: 13 July 2018 08:00

1

ответ

Scala читает файл csv и сортирует файл

Я прочитал файл csv в dataframe, и я хочу сортировать df в порядке импорта. Org.apache.spark.sql. {Dataset, DataFrame, SparkSession} scala & gt; df.sort ($ "year", "state" .ASC): 37: error: value ...

scala apache-spark apache-spark-sql

вопрос задан: 13 July 2018 04:52

1

ответ

rdd.countApprox занимает до тех пор, пока count () [duplicate]

Мой код выглядит как foo.rdd.countApprox (1000, 0.9) = & gt; занимает 7,1 минуты. foo.count () = & gt; занимает 7,1 минуты. Есть ли что-нибудь, что мне не хватает? foo - это df, и я стараюсь сократить время, которое требуется ...

apache-spark pyspark

вопрос задан: 9 July 2018 18:24

1

ответ

Преобразование sql-запроса в sparksql [duplicate]

Привет. Нужна помощь в преобразовании ниже SQL-запроса в SPARK-SQL. выберите listAgg (txnid, ',') внутри группы (порядок по txndate) как txnlist, listAgg (mid, ',') внутри группы (порядок по txndate) как midList, cardno, ...

sql apache-spark apache-spark-sql

вопрос задан: 7 July 2018 05:44

1

ответ

Scark Scala Schema для типа Unit не поддерживается [дублировать]

Я новый ученик для Spark Scala. У меня есть udf, и он работает с ошибкой return Исключение в потоке «main» java.lang.UnsupportedOperationException: схема для типа Unit не поддерживается Код: val ...

scala apache-spark

вопрос задан: 2 July 2018 15:57

1

ответ

Как & lt; MyDataFrame & gt; GroupBy (& ldquo; Fields & rdquo;). Применить (Fn)? [Дубликат]

Мне нужно написать пользовательскую функцию GroupBy.Apply () для pyspark. Поэтому я сказал: Представляем Pandas UDF для PySpark. Как я уже сказал, я попытался - @pandas_udf (& lt; mydf & gt; .schema, PandasUDFType.GROUPED_MAP) ...

python pandas apache-spark pyspark amazon-emr

вопрос задан: 28 June 2018 13:44

1

ответ

См. Ошибки прогнозирования различных параметров из CrossValidator Spark MLlib (в Scala) [дубликат]

Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...

scala apache-spark apache-spark-mllib databricks

вопрос задан: 26 June 2018 11:33

1

ответ

Удалите пустые значения из Spark DataFrame и объедините их в одну строку [duplicate]

Это мой вход DataFrame: number | word | ID | Name | + ------ + ---- + --- + ---- + | 1 | | | | | | abc | | | | | | 103 | | | | | | Dev | + ------ + ---- + --- + ---- Я хочу ...

apache-spark apache-spark-sql

вопрос задан: 7 May 2018 20:33

1

ответ

Py4JJavaError | java.lang.IllegalArgumentException | Исправлена ошибка Jupyter | Count () не работает [дубликат]

У меня версия Java версии java «10.0.2» 2018-07-17 Java (TM) SE Runtime Environment 18.3 (build 10.0.2 + 13) Java HotSpot (TM) 64-разрядный сервер VM 18.3 (сборка 10.0.2 + 13 , смешанный режим) Spark и Hadoop ...

python apache-spark pyspark jupyter-notebook

вопрос задан: 22 April 2018 02:35