6
ответов

Как создать DF с условными предложениями [duplicate]

Это оригинальный ключ данных val =================== 1 a 2 b 3 c 1 b 2 b 3 a, и я хочу это сделать. key count_a ...
вопрос задан: 10 November 2015 14:43
6
ответов

Создание фиктивных переменных в SparkR [duplicate]

У меня есть Spark DataFrame, как показано ниже. custID | ProdType ----------------- 001 | prod1 001 | prod2 001 | prod3 002 | prod1 002 | prod3 002 | prod4 003 | prod1 003 | prod2 ...
вопрос задан: 10 November 2015 14:43
5
ответов

Вывод функции foreach на Spark DataFrame [дубликат]

Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...
вопрос задан: 13 August 2014 21:13
4
ответа

Как я & ldquo; un & rdquo; -explode Spark dataframe [duplicate]

Я знаю, как превратить Dataframe Df_Nested в Df_Table, применив функцию «взорвать» val Df_Table = Df_Nested.withColumn («ckey», explode (Df_Table («ckey_group»)) ....
вопрос задан: 10 June 2016 00:17
3
ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
вопрос задан: 24 December 2015 11:08
2
ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...
вопрос задан: 10 September 2016 03:09
2
ответа

Spark Drop Duplicates в нескольких столбцах - проблема с производительностью [дубликат]

У меня проблема аналогичная этому, но я хочу проверить дубликаты в нескольких столбцах и сохранить запись с самой старой отметкой времени. Я попытался создать порядок столбцов timestamp с этим, а затем отбросить ...
вопрос задан: 25 February 2016 12:40
2
ответа

Извлечение нескольких столбцов, связанных с минимальным pyspark [duplicate]

Используя pyspark, мне нужно найти что-то похожее на команду SQL KEEP (DENSE RANK LAST ORDER). Используя groupBy и agg, я хочу извлечь другие значения столбцов, которые связаны с минимумом групп. ...
вопрос задан: 25 February 2016 12:40
2
ответа

Получить максимальный столбец на основе значения другого столбца [duplicate]

Вот как выглядят мои данные csv: TagNumber, DatePaid, TotalPaid ABCD, 11/5/2017, $ 101 EFGH, 12/5/2017, $ 201 ABCD, 11/7/2017, $ 501 ABCD, 12/5/2017, $ 201 Я создаю dataframe, который будет группировать данные с помощью ...
вопрос задан: 25 February 2016 12:40
2
ответа

Python Чтение из SQL в pandas dataframes [duplicate]

Я использую приведенный ниже сценарий для чтения данных с MSSQL Server в Pyspark dataframes. DFFSA = spark.read.format ("jdbc"). Option ("url", jdbcURLDev) .option ("driver", MSSQLDriver) .option ("dbtable", "FSA.dbo ....
вопрос задан: 15 January 2016 19:34
2
ответа

Как оценивать строки в DataFrame? [Дубликат]

У меня этот DataFrame df: + ----------- + -------------- + ---------- + ----- ------------- + ---- + | country_pk | cat_pk | item_pk | valrank | rank | + ----------- + -------------- + ---------- + -------...
вопрос задан: 7 December 2015 21:55
2
ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...
вопрос задан: 11 August 2015 16:52
1
ответ

динамический запрос sql sql [дубликат]

Как мы можем динамически передавать имя столбца в SQL-запрос Spark в Java? Я попытался сохранить SQL-запрос в строку, а затем передать эту строку в качестве параметра, такого как: SparkSession spark = ...
вопрос задан: 25 April 2017 17:36
1
ответ

Невозможно указать схему JSON в Spark [duplicate]

Я читаю JSON-файл с указанной схемой в Spark 2.3. Я обнаружил, что один из столбцов, не имеющих значения NULL, является нулевым, что не ожидается. Другими словами, я не смог указать схему для JSON. Видеть ...
вопрос задан: 17 January 2017 20:41
1
ответ

Передача ввода DataFrame в класс Case с членом любого типа [дубликат]

У меня есть DataFrame с различными типами столбцов. Для ясности, скажем, он структурирован, как показано ниже, с колонкой Ints, столбцом строк и столбцом Floats. + ------- + ------- + --...
вопрос задан: 6 January 2017 12:43
1
ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...
вопрос задан: 22 April 2016 20:44
1
ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...
вопрос задан: 19 April 2016 21:15
1
ответ

Правильное использование Аккумуляторов в Apache Spark [дубликат]

Нам нужно каким-то образом переключить флаг переменной в преобразовании. Мы собираемся использовать искровые Аккумуляторы для этой цели. Можем ли мы использовать их, как показано ниже: Переменные - & gt; Начальное значение ...
вопрос задан: 4 April 2016 11:46
1
ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...
вопрос задан: 9 March 2016 00:04
1
ответ

Как использовать dataframes в функции карты в Spark? [Дубликат]

Я занимаюсь машинным обучением, и у меня есть два фрейма Spark, содержащие данные обучения и тестирования соответственно. У меня есть функция, которая принимает некоторую конфигурацию модели, обучает модель на ...
вопрос задан: 8 March 2016 06:01
1
ответ

Как преобразовать строки Spark DataFrame в Python? [Дубликат]

У меня есть файл CSV, содержащий данные обучения. Формат выглядит как эта метка, x, y 1,0.13,2.11 1,0.20,0.32 Я хочу использовать ее для обучения модели машинного обучения с использованием самых современных идиом Python Spark ....
вопрос задан: 5 March 2016 00:21
1
ответ

Ошибка при попытке создать экземпляр sqlContext [duplicate]

Я запускаю среду pacpark anaconda. И мне нужно реализовать Dataframe из RDD. Но когда я пытаюсь внедрить sqlContext: из pyspark.sql import SQLContext sc = SparkContext ....
вопрос задан: 10 January 2016 14:22
1
ответ

Scala Spark Dataframe новый столбец из столбца объекта [дубликат]

У меня есть dataframe, который содержит столбец Polyline (от Magellan). Я хочу извлечь некоторые поля этого столбца в новые столбцы. Вот пример того, что я хочу сделать: spark.read .format ("...
вопрос задан: 23 November 2015 20:38
1
ответ

Заполните значения NULL с последним хорошим значением [duplicate]

Я импортирую CSV как обычно: val df = spark.read .format ("csv") .option ("header", "true") // чтение заголовков .option ("mode", "DROPMALFORMED") .option («разделитель», «,») ....
вопрос задан: 11 November 2015 02:36
1
ответ

Scala / Spark вперед заполняют условия [дубликат]

Поэтому вопрос в том, что у меня есть кадр данных со следующими входными данными. Обращаем ваше внимание, что формат данных сортируется по id. Я хочу получить желаемый результат в данном примере. Я хочу заполнить нулевые значения ...
вопрос задан: 11 November 2015 02:36
1
ответ

Можем ли мы предоставить нашу собственную функцию в качестве условия соединения для RDD или Dataframes в Spark? [Дубликат]

Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...
вопрос задан: 5 October 2015 16:14
1
ответ

Как писать & ldquo; например, «% ABC%» & rdquo; в Spark [дубликат]

Как написать следующий фильтр в Spark TYPE_FIELD, например, «% ABC%». Это то же самое, что и df.filter ($ "TYPE_FIELD" === "ABC")?
вопрос задан: 23 September 2015 16:25
1
ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...
вопрос задан: 5 July 2015 11:35
0
ответов

Суммарная сумма Python Spark по группам с использованием DataFrame

Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...
вопрос задан: 20 February 2018 17:24
0
ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...
вопрос задан: 22 June 2017 21:02