1
ответ

Драйвер Spark ждет, пока все разделы завершат работу из rdd.foreachPartition, прежде чем продолжить?

Например, если у меня в драйвере Spark работает следующий код: rdd.foreachPartition (iterator = > myFunc (iterator)) val x = 1 Будет ли драйвер ждать завершения каждого раздела ...
вопрос задан: 16 January 2019 23:52
1
ответ

Scala Spark - преобразование нескольких групповых уровней с использованием массивов в качестве входных данных

В моей программе Scala я сталкиваюсь с проблемой объединения результатов нескольких уровней GroupBy. Набор данных, который я использую, довольно большой. В качестве небольшого примера у меня есть датафрейм, который выглядит как ...
вопрос задан: 16 January 2019 17:02
1
ответ

Группа SparkBy против перераспределения плюс mapPartitions

Мой набор данных ~ 20 миллионов строк, он занимает ~ 8 ГБ оперативной памяти. Я выполняю свою работу с 2 исполнителями, 10 ГБ ОЗУ на исполнителя, 2 ядра на исполнителя. Из-за дальнейших преобразований данные должны быть кэшированы все ...
вопрос задан: 16 January 2019 14:43
1
ответ

Найдите общие строки в двух информационных кадрах и отметьте общие строки в первом

Я работаю над проектом прогнозирования ссылок в Spark с использованием Scala. Моя цель - найти две общие строки между двумя фреймами данных (один из них содержит основную правду всех ссылок) и пометить их в ...
вопрос задан: 16 January 2019 14:35
1
ответ

Оптимизация записи разделенных данных в S3 в spark sql

У меня около 700 ГБ данных, которые я читаю из HDFS при каждом запуске задания Spark. Моя работа читает эти данные, фильтрует около 60% данных, разделяет их следующим образом: val toBePublishedSignals = hiveCtx.sql ("...
вопрос задан: 16 January 2019 14:03
1
ответ

как это & ​​ldquo; Exchange hashpartitioning & rdquo; работает в искре

У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы впоследствии получить выгоду от запроса этих файлов через Spark, включая Predicate Pushdown. В настоящее время я использовал перераспределение ...
вопрос задан: 16 January 2019 11:20
1
ответ

sparkSession.sql, выбрасывающий исключение NullPointerException

У меня есть два класса scala, как часть моей работы с spark-sql, то есть Driver.scala и ExtractorOne.scala. Driver.scala передает различные параметры, такие как объект sparkSession и т. Д., В различные экстракторы, такие как ...
вопрос задан: 16 January 2019 08:18
1
ответ

Как сделать сумму столбцов и сделать ее доступной как столбец в Spark SQL

У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых столбцов без вмешательства в другие столбцы. Например, вот мой набор данных data_set, vol, канал Dak, 10, ABC ...
вопрос задан: 15 January 2019 17:19
1
ответ

Конвертировать нулевые значения в пустой массив в Spark DataFrame

У меня есть фрейм данных Spark, где один столбец является массивом целых чисел. Столбец обнуляется, потому что он исходит из левого внешнего соединения. Я хочу преобразовать все нулевые значения в пустой массив, чтобы я не ...
вопрос задан: 6 January 2019 17:54
1
ответ

Apache Spark - назначить результат UDF нескольким столбцам данных

Я использую pyspark, загружая большой файл csv в фрейм данных с помощью spark-csv, и в качестве шага предварительной обработки мне нужно применить различные операции к данным, доступным в одном из столбцов (что ...
вопрос задан: 6 January 2019 08:56
1
ответ

Spark Java API: как преобразовать JavaRDD в тип RDD

Я пытаюсь преобразовать код, написанный с использованием Dataframe в DataSet API. Проблема в том, что я создал JavaRDD как: final JavaRDD & lt; String & gt; abcJavaRdd = jsc.textFile ("/ path / to / textfile"); Но ...
вопрос задан: 13 July 2018 21:35
1
ответ

Извлечь вложенный массив из строки Spark SQL внутри UDF

Я работаю с DataFrames и нуждаюсь в извлечении данных. У меня много вложенных уровней, поэтому я сделал первый уровень с взрывами и выборами, но затем я использую UDF для вложенных уровней. У меня есть UDF, берущий $ Root ....
вопрос задан: 13 July 2018 11:46
1
ответ

Как использовать функцию instr () с аргументами типа столбца в Spark

У меня проблема с использованием функции instr () в Spark. Определение функции выглядит следующим образом: instr (столбец str, строковая подстрока). Проблема в том, что мне нужно использовать значение типа столбца как второе ...
вопрос задан: 13 July 2018 08:25
1
ответ

В Spark, как вызвать UDF с UDO в качестве параметров, чтобы избежать двоичной ошибки

Я определил UDF с UDO в качестве параметров. Но когда я попытался вызвать его в dataframe, я получил сообщение об ошибке «org.apache.spark.SparkException: не удалось выполнить определенную пользователем функцию ($ anonfun $ 1: (array) = ...
вопрос задан: 13 July 2018 08:01
1
ответ

Scala читает файл csv и сортирует файл

Я прочитал файл csv в dataframe, и я хочу сортировать df в порядке импорта. Org.apache.spark.sql. {Dataset, DataFrame, SparkSession} scala & gt; df.sort ($ "year", "state" .ASC): 37: error: value ...
вопрос задан: 13 July 2018 04:52
1
ответ

Преобразование sql-запроса в sparksql [duplicate]

Привет. Нужна помощь в преобразовании ниже SQL-запроса в SPARK-SQL. выберите listAgg (txnid, ',') внутри группы (порядок по txndate) как txnlist, listAgg (mid, ',') внутри группы (порядок по txndate) как midList, cardno, ...
вопрос задан: 7 July 2018 05:44
1
ответ

Удалите пустые значения из Spark DataFrame и объедините их в одну строку [duplicate]

Это мой вход DataFrame: number | word | ID | Name | + ------ + ---- + --- + ---- + | 1 | | | | | | abc | | | | | | 103 | | | | | | Dev | + ------ + ---- + --- + ---- Я хочу ...
вопрос задан: 7 May 2018 20:33
1
ответ

Фильтр A Spark Dataframe на основе количества дней между двумя столбцами TimeStamp [дубликат]

В настоящее время я пытаюсь передать некоторые запросы T-SQL для запуска на Apache Spark. У меня есть два поля, сохраненные как метки времени в паркет. Однако я хочу преобразовать условие where следующего SQL-запроса в ...
вопрос задан: 17 May 2017 09:54
1
ответ

текст сходство различный способ используя искру? [дубликат]

Я хочу получить текстовый метод подобия, отличающийся от 200 миллионов различных предложений, используя искру. Предположим, у меня есть 4 предложения, которые есть [«Привет, я слышал об искры», «Привет, я слышал о Spark World», «...
вопрос задан: 12 May 2017 13:14
1
ответ

Вычислить сходство между предложениями с помощью Spark [duplicate]

У меня есть следующий ввод для моей задачи: - ID - & gt; Список слов (101 - & gt; Массив («a1», «b2», «c4», «d2»)) (102 - & gt; Array («a6», «b1», «c5», «d3») ) (103 - & gt; Array ("a1", "b4", "c4", "d2")) (...
вопрос задан: 12 May 2017 13:14
1
ответ

динамический запрос sql sql [дубликат]

Как мы можем динамически передавать имя столбца в SQL-запрос Spark в Java? Я попытался сохранить SQL-запрос в строку, а затем передать эту строку в качестве параметра, такого как: SparkSession spark = ...
вопрос задан: 25 April 2017 17:36
1
ответ

Определите scala udf, которые принимают любые параметры * в искровом [дубликат]

Моя функция scala объединяет список значений и хеширует их. Я хотел бы использовать эту функцию в искровом dataframe. Но я получаю ошибку: не удалось выполнить пользовательскую функцию (anonfun $ 2: (string) ...
вопрос задан: 28 February 2017 18:48
1
ответ

Apache Spark пишет в MySQL с JDBC-коннектором (режим записи: игнорировать) не выполняет, как ожидалось [duplicate]

У меня есть мои таблицы, хранящиеся в MySQL с идентификатором в качестве первичного ключа. Я хочу написать, используя Spark для Mysql, где он игнорирует строки в фрейме данных, который уже существует в Mysql (на основе первичного ключа) и только ...
вопрос задан: 13 February 2017 22:26
1
ответ

Spark RDD (Список (карта [String, Any]) преобразуется в Dataframe со смешанными значениями карты [duplicate]

У меня есть список со списком (Map [String, Any]), и вам нужно построить DataFrame из этого со смешанными типами значений. Например: Строка 1 - Карта («a» - & gt; 1 (intType), «b» - & gt; «hi» (StringType)) Возможно ли это? ...
вопрос задан: 8 February 2017 21:36
1
ответ

Невозможно указать схему JSON в Spark [duplicate]

Я читаю JSON-файл с указанной схемой в Spark 2.3. Я обнаружил, что один из столбцов, не имеющих значения NULL, является нулевым, что не ожидается. Другими словами, я не смог указать схему для JSON. Видеть ...
вопрос задан: 17 January 2017 20:41
1
ответ

PySpark 2.1. Безножки с нулевым плюсом [дубликат]

Я использую PySpark 2.1. Я пытаюсь фильтровать данные по строке даты как таковой «2017-12-01». Однако в моих исходных данных это выглядит следующим образом. ID YEAR MONTH ДЕНЬ 1 2017 12 10 2 2017 ...
вопрос задан: 29 December 2016 09:25
1
ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....
вопрос задан: 12 August 2016 18:47
1
ответ

PySpark SQL: структура структуры экспорта [дубликат]

Я использую PySpark, и для одного из наборов данных мне нужно экспортировать схему фрейма данных. Как и в ответе, приведенном здесь, но в той же версии pyspark. Есть ли способ сделать это?
вопрос задан: 8 July 2016 23:17
1
ответ

Как использовать pivot в & ldquo; SPARKSQL & rdquo; для типа столбца String [duplicate]

У меня есть требование использовать pivot в SPARKSQL для столбцов типа string. Хранить: Int, Year: Int, Code: String store, Year, Code 102,1, STJ 101,1, SDF 105,1, DFR 109,1, YTR 101,2, KIR 102,2, CVT 105,2, WER 109,2, ...
вопрос задан: 28 May 2016 10:37
1
ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...
вопрос задан: 19 April 2016 21:15