spark-dataframe - список вопросов по программированию spark-dataframe

6

ответов

Как создать DF с условными предложениями [duplicate]

Это оригинальный ключ данных val =================== 1 a 2 b 3 c 1 b 2 b 3 a, и я хочу это сделать. key count_a ...

вопрос задан: 10 November 2015 14:43

6

ответов

Создание фиктивных переменных в SparkR [duplicate]

r pyspark spark-dataframe sparkr

вопрос задан: 10 November 2015 14:43

5

ответов

Вывод функции foreach на Spark DataFrame [дубликат]

Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...

apache-spark pyspark spark-dataframe rdd

вопрос задан: 13 August 2014 21:13

4

ответа

Как я & ldquo; un & rdquo; -explode Spark dataframe [duplicate]

Я знаю, как превратить Dataframe Df_Nested в Df_Table, применив функцию «взорвать» val Df_Table = Df_Nested.withColumn («ckey», explode (Df_Table («ckey_group»)) ....

apache-spark spark-dataframe

вопрос задан: 10 June 2016 00:17

3

ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...

apache-spark pyspark spark-dataframe pyspark-sql

вопрос задан: 24 December 2015 11:08

2

ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...

apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 10 September 2016 03:09

2

ответа

Spark Drop Duplicates в нескольких столбцах - проблема с производительностью [дубликат]

У меня проблема аналогичная этому, но я хочу проверить дубликаты в нескольких столбцах и сохранить запись с самой старой отметкой времени. Я попытался создать порядок столбцов timestamp с этим, а затем отбросить ...

performance apache-spark pyspark spark-dataframe

вопрос задан: 25 February 2016 12:40

2

ответа

Извлечение нескольких столбцов, связанных с минимальным pyspark [duplicate]

Используя pyspark, мне нужно найти что-то похожее на команду SQL KEEP (DENSE RANK LAST ORDER). Используя groupBy и agg, я хочу извлечь другие значения столбцов, которые связаны с минимумом групп. ...

apache-spark pyspark spark-dataframe

вопрос задан: 25 February 2016 12:40

2

ответа

Получить максимальный столбец на основе значения другого столбца [duplicate]

Вот как выглядят мои данные csv: TagNumber, DatePaid, TotalPaid ABCD, 11/5/2017, $ 101 EFGH, 12/5/2017, $ 201 ABCD, 11/7/2017, $ 501 ABCD, 12/5/2017, $ 201 Я создаю dataframe, который будет группировать данные с помощью ...

python-3.x apache-spark dataframe pyspark spark-dataframe

вопрос задан: 25 February 2016 12:40

2

ответа

Python Чтение из SQL в pandas dataframes [duplicate]

Я использую приведенный ниже сценарий для чтения данных с MSSQL Server в Pyspark dataframes. DFFSA = spark.read.format ("jdbc"). Option ("url", jdbcURLDev) .option ("driver", MSSQLDriver) .option ("dbtable", "FSA.dbo ....

python pandas pyspark spark-dataframe pyspark-sql

вопрос задан: 15 January 2016 19:34

2

ответа

Как оценивать строки в DataFrame? [Дубликат]

scala apache-spark spark-dataframe

вопрос задан: 7 December 2015 21:55

2

ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

вопрос задан: 11 August 2015 16:52

1

ответ

динамический запрос sql sql [дубликат]

Как мы можем динамически передавать имя столбца в SQL-запрос Spark в Java? Я попытался сохранить SQL-запрос в строку, а затем передать эту строку в качестве параметра, такого как: SparkSession spark = ...

java apache-spark apache-spark-sql spark-dataframe

вопрос задан: 25 April 2017 17:36

1

ответ

Невозможно указать схему JSON в Spark [duplicate]

Я читаю JSON-файл с указанной схемой в Spark 2.3. Я обнаружил, что один из столбцов, не имеющих значения NULL, является нулевым, что не ожидается. Другими словами, я не смог указать схему для JSON. Видеть ...

json apache-spark apache-spark-sql spark-dataframe

вопрос задан: 17 January 2017 20:41

1

ответ

Передача ввода DataFrame в класс Case с членом любого типа [дубликат]

У меня есть DataFrame с различными типами столбцов. Для ясности, скажем, он структурирован, как показано ниже, с колонкой Ints, столбцом строк и столбцом Floats. + ------- + ------- + --...

scala apache-spark spark-dataframe apache-spark-dataset

вопрос задан: 6 January 2017 12:43

1

ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...

apache-spark pyspark spark-dataframe apache-spark-mllib

вопрос задан: 22 April 2016 20:44

1

ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...

apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-mllib

вопрос задан: 19 April 2016 21:15

1

ответ

Правильное использование Аккумуляторов в Apache Spark [дубликат]

Нам нужно каким-то образом переключить флаг переменной в преобразовании. Мы собираемся использовать искровые Аккумуляторы для этой цели. Можем ли мы использовать их, как показано ниже: Переменные - & gt; Начальное значение ...

apache-spark spark-dataframe accumulator

вопрос задан: 4 April 2016 11:46

1

ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...

scala apache-spark bigdata spark-dataframe rdd

вопрос задан: 9 March 2016 00:04

1

ответ

Как использовать dataframes в функции карты в Spark? [Дубликат]

Я занимаюсь машинным обучением, и у меня есть два фрейма Spark, содержащие данные обучения и тестирования соответственно. У меня есть функция, которая принимает некоторую конфигурацию модели, обучает модель на ...

python apache-spark machine-learning pyspark spark-dataframe

вопрос задан: 8 March 2016 06:01

1

ответ

Как преобразовать строки Spark DataFrame в Python? [Дубликат]

У меня есть файл CSV, содержащий данные обучения. Формат выглядит как эта метка, x, y 1,0.13,2.11 1,0.20,0.32 Я хочу использовать ее для обучения модели машинного обучения с использованием самых современных идиом Python Spark ....

python apache-spark spark-dataframe

вопрос задан: 5 March 2016 00:21

1

ответ

Ошибка при попытке создать экземпляр sqlContext [duplicate]

Я запускаю среду pacpark anaconda. И мне нужно реализовать Dataframe из RDD. Но когда я пытаюсь внедрить sqlContext: из pyspark.sql import SQLContext sc = SparkContext ....

apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 10 January 2016 14:22

1

ответ

Scala Spark Dataframe новый столбец из столбца объекта [дубликат]

У меня есть dataframe, который содержит столбец Polyline (от Magellan). Я хочу извлечь некоторые поля этого столбца в новые столбцы. Вот пример того, что я хочу сделать: spark.read .format ("...

scala apache-spark spark-dataframe

вопрос задан: 23 November 2015 20:38

1

ответ

Заполните значения NULL с последним хорошим значением [duplicate]

Я импортирую CSV как обычно: val df = spark.read .format ("csv") .option ("header", "true") // чтение заголовков .option ("mode", "DROPMALFORMED") .option («разделитель», «,») ....

scala apache-spark spark-dataframe

вопрос задан: 11 November 2015 02:36

1

ответ

Scala / Spark вперед заполняют условия [дубликат]

Поэтому вопрос в том, что у меня есть кадр данных со следующими входными данными. Обращаем ваше внимание, что формат данных сортируется по id. Я хочу получить желаемый результат в данном примере. Я хочу заполнить нулевые значения ...

scala apache-spark spark-dataframe

вопрос задан: 11 November 2015 02:36

1

ответ

Можем ли мы предоставить нашу собственную функцию в качестве условия соединения для RDD или Dataframes в Spark? [Дубликат]

Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...

scala apache-spark join spark-dataframe rdd

вопрос задан: 5 October 2015 16:14

1

ответ

Как писать & ldquo; например, «% ABC%» & rdquo; в Spark [дубликат]

Как написать следующий фильтр в Spark TYPE_FIELD, например, «% ABC%». Это то же самое, что и df.filter ($ "TYPE_FIELD" === "ABC")?

scala apache-spark spark-dataframe

вопрос задан: 23 September 2015 16:25

1

ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...

apache-spark pyspark spark-dataframe rdd

вопрос задан: 5 July 2015 11:35

0

ответов

Суммарная сумма Python Spark по группам с использованием DataFrame

Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...

spark-dataframe pyspark apache-spark

вопрос задан: 20 February 2018 17:24

0

ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...

python apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 22 June 2017 21:02