9
ответов

Замена groupBykey () с помощью reduceByKey () [duplicate]

Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...
вопрос задан: 17 August 2017 10:00
9
ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
вопрос задан: 25 December 2015 19:56
5
ответов

Подсчет частоты упорядоченной последовательности (запусков) в данных с использованием SQL [duplicate]

Я пытаюсь найти способ определить последовательность упорядоченных прогонов и как часто они происходят. Возьмем пример ниже - у меня есть список первых 3 колотит в линейке для каждой игры, какое число они ...
вопрос задан: 23 September 2015 17:00
4
ответа

Как сохранить данные в формате текстового файла GZ в pyspark? ((Но не в формате csv) [дублировать]

У меня есть фрейм данных, как показано ниже + ------- + ------ + ---- + ---- + | | b | c | d | + ------- + ----------- + ---- + | 101 | 244 | 4 | 1 | | 101 | 245 | 5 | 0 | | 101 | 313 | 2 | 0 | | ...
вопрос задан: 28 November 2016 21:06
3
ответа

Пользовательские функции pyspark для группировки объектов [дубликат]

Я выполняю groupby с помощью 'name' и apply function; my_func 'groupedData в pandas df.groupby ([' name ']). Apply (my_func) Я хочу выполнить такую ​​же операцию в pyspark. Как это можно достичь. ...
вопрос задан: 12 October 2016 19:01
3
ответа

Обновление таблицы mysql с использованием Spark [duplicate]

Возможно ли обновить таблицу mysql с помощью jdbc в искровом режиме? Если нет, то, что нужно для обновления?
вопрос задан: 25 February 2016 19:02
3
ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
вопрос задан: 24 December 2015 11:08
2
ответа

Вопрос о присоединении датафреймов в Spark

Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...
вопрос задан: 18 March 2019 21:03
2
ответа

pyspark Dataframe - сравнение двойного столбца с столбцом массива двойников - тип Mismatch? [Дубликат]

У меня есть столбец, который содержит двойной столбец и массив столбцов двойников. Я пытаюсь выяснить, могу ли я создать другой столбец на основе проверки наличия двойного столбца в массиве удвоений ...
вопрос задан: 10 September 2016 03:09
2
ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...
вопрос задан: 25 May 2016 04:59
2
ответа

Pyspark: найти первое появление максимального значения [duplicate]

В моем наборе данных есть скорость, записанная для нескольких автомобилей, как функция времени. У каждого автомобиля есть определенный идентификатор. Данные выглядят так: + ----------------- + ----------- + ------ + | отметка времени | ...
вопрос задан: 25 February 2016 12:40
2
ответа

Python Чтение из SQL в pandas dataframes [duplicate]

Я использую приведенный ниже сценарий для чтения данных с MSSQL Server в Pyspark dataframes. DFFSA = spark.read.format ("jdbc"). Option ("url", jdbcURLDev) .option ("driver", MSSQLDriver) .option ("dbtable", "FSA.dbo ....
вопрос задан: 15 January 2016 19:34
2
ответа

Как сохранить линейную регрессионную модель в PySpark 1.4.2? [Дубликат]

Я пытаюсь сохранить модель в PySpark 1.4.2. но ниже модели error.save (sc, modelpath) Traceback (последний последний вызов): Файл «& lt; stdin & gt;», строка 1, в & lt; module & gt; AttributeError: '...
вопрос задан: 9 October 2015 00:09
2
ответа

PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

У меня есть файловый фрейм PySpark mydf, и я группируюсь по 2 столбцам (код и col1), чтобы получить результирующую таблицу с наивысшим разным числом третьего столбца (newid). Например: mydf code col1 newid 100 ...
вопрос задан: 26 June 2015 03:08
1
ответ

Как сделать sql jointure на спарк?

Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...
вопрос задан: 30 March 2019 03:53
1
ответ

Фильтрация набора данных улья на основе списка Python

Я довольно новичок в улье и искре, но то, что я хочу сделать, кажется, что это должно быть просто. По сути, я хочу взять список из Python, а затем только извлекать записи из улья, в которых есть ключ к этому ...
вопрос задан: 18 March 2019 18:50
1
ответ

Агрегат PySpark и условия

У меня есть вопрос по PySpark. df = (sc.parallelize ([{"Day": 1, "Sensitive_ID": "1234", "Num": 3}, {"Day": 1, "Sensitive_id": "1234", "NUM": 3 }, {"Day": 2, "itive_id ":" 1234 "," num ": 3}, {" ...
вопрос задан: 18 March 2019 16:04
1
ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

значения = [(u '[23,4,77,890,455]', 10), (u '[11,2,50,1,11]', 20), (u '[10,5,1,22,04 ] ', 30)] df = sqlContext.createDataFrame (values, [' list ',' A ']) df.show () + ----------------- + - - + | list_1 | | + -----...
вопрос задан: 26 February 2019 10:31
1
ответ

Ошибка использования встроенной функции python ** abs ** в pyspark-2.3

Я пытался преобразовать отрицательное число в положительное, используя встроенную в Python функцию abs в pyspark shell-2.3. numb = -2 print (abs (numb)) Это выдает мне странную ошибку: py4j.protocol.Py4JError: An ...
вопрос задан: 19 January 2019 22:53
1
ответ

Pivoting / Reshaping Dataframe в Pyspark Динамически [дублировать]

У меня есть результат dataframe, как ниже, который я получил из описания + ------- + ------------------ + --------- --------- + ------------------ + | резюме | val1 | val2 | val3 | + ...
вопрос задан: 27 September 2017 16:38
1
ответ

PySpark SQL: структура структуры экспорта [дубликат]

Я использую PySpark, и для одного из наборов данных мне нужно экспортировать схему фрейма данных. Как и в ответе, приведенном здесь, но в той же версии pyspark. Есть ли способ сделать это?
вопрос задан: 8 July 2016 23:17
0
ответов

Как конвертировать сводную таблицу в df с помощью PySpark

У меня следующая проблема: я использую PySpark для чтения таблицы из Snowflake в качестве кадра данных. Затем я выполняю pivot в кадре данных. После этого я хочу преобразовать объект сводки обратно в фрейм данных ...
вопрос задан: 5 April 2019 04:40
0
ответов

Проблема Pyspark с метками времени при чтении БД MySQL

Python 2.7 Pyspark 2.2.1 JDBC-формат для MySQL-> Spark DF Для написания Spark DF- > AWS Redshift Я использую драйвер `Spark-Redshift` от Databricks. Я читаю данные в Spark из MySQL ...
вопрос задан: 28 March 2019 09:49
0
ответов

Spark не разрешает отдельные запросы для одних и тех же источников данных в пределах одного SQL-запроса Spark

Давайте рассмотрим пример двух вновь созданных фреймов данных empDF и deptDF. Создайте представление empDF.createOrReplaceTempView ("table1") deptDF.createOrReplaceTempView ("table2") spark.sql ("select * from table1 ..."
вопрос задан: 25 March 2019 17:51
0
ответов

PySpark - обновить Dataframe из временного представления или другого dataframe

Я должен запустить и обновить данные на основе правил в другом кадре данных. Сначала я копирую оба в dataframes data_df и rules_df, затем перебираю правила, фильтрую данные и обновляю данные, как показано ниже ...
вопрос задан: 24 March 2019 05:37
0
ответов

Создание диапазона дат в PySpark

Я хотел создать диапазон дат в Spark Dataframe, по умолчанию нет функции для этого. Итак, я написал это из pyspark.sql import * import pyspark.sql.functions как F из pyspark.sql ....
вопрос задан: 18 March 2019 18:14
0
ответов

Pyspark: фильтр данных на основе нескольких условий

Я хочу отфильтровать фрейм данных в соответствии со следующими условиями: во-первых (d <5) и во-вторых (значение col2 не равно его аналогу в col4, если значение в col1 равно его аналогу в col3). Если ...
вопрос задан: 8 February 2019 06:04
0
ответов

Inner Join On (Hive) дает другой результат, чем PySpark Inner Join

Я наблюдал это явление сегодня. Когда я выполняю следующую команду в Hive CLI, я получаю что-то отличное от того, что делает это с pyspark: Hive: Выберите count (отличный t1.fieldX) от ...
вопрос задан: 17 January 2019 15:12
0
ответов

структура и массив во фрейме данных, показывающий тип данных в виде строки в pyspark

У меня есть файл Json, как упомянуто ниже, который имеет массив и структуру для одного элемента Json, поэтому после чтения этого файла JSON с помощью фрейма данных pyspark получите тип данных «String» вместо Array / Struct. ...
вопрос задан: 16 January 2019 12:37
0
ответов

Фильтрация фрейма данных pyspark с использованием isin путем исключения [duplicate]

Я пытаюсь получить все строки в кадре данных, где значение столбца не находится в списке (поэтому фильтрация по исключению). Например: df = sqlContext.createDataFrame ([('1', 'a'), ('2', 'b'), ('3', 'b'), ('...
вопрос задан: 21 January 2017 14:22