pyspark - список вопросов по программированию pyspark

3

ответа

Использование JDBC в Apache Spark для подключения к MS SQL Server 2008 R2 [дубликат]

У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...

вопрос задан: 13 March 2016 14:08

3

ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...

apache-spark hive pyspark apache-spark-sql teradata

вопрос задан: 13 March 2016 14:08

3

ответа

Pyspark - обновление определенных столбцов в таблице mysql [дубликат]

Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...

python mysql apache-spark pyspark amazon-rds

вопрос задан: 25 February 2016 19:02

3

ответа

Обновление таблицы mysql с использованием Spark [duplicate]

Возможно ли обновить таблицу mysql с помощью jdbc в искровом режиме? Если нет, то, что нужно для обновления?

apache-spark pyspark pyspark-sql

вопрос задан: 25 February 2016 19:02

3

ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...

python apache-spark hadoop pyspark apache-spark-sql

вопрос задан: 7 February 2016 19:15

3

ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...

apache-spark pyspark spark-dataframe pyspark-sql

вопрос задан: 24 December 2015 11:08

3

ответа

Невозможно получить доступ к внешней переменной в pyspark UDF [duplicate]

У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...

python apache-spark pyspark databricks

вопрос задан: 28 April 2015 05:04

3

ответа

Объяснение для предупреждения Spark Stage xx содержит задачу с очень большим размером [дублировать]

В pyspark (2.2.0) у меня есть список из 100 000 ключевых значений. Когда я делаю распараллеливание по 16 разделам, я получаю предупреждение & gt; & gt; & gt; & gt; & gt; sc.parallelize (my_list, 16) .take (3) Этап искры xx содержит ...

apache-spark pyspark partitioning

вопрос задан: 24 April 2015 21:22

2

ответа

Объединить два столбца в искровом фрейме данных в один столбец

У меня есть Spark Dataframe с двумя столбцами; src_edge и dest_edge. Я просто хочу создать новый фрейм данных spark, чтобы он содержал один идентификатор столбца со значениями из src_edge и dest_edge. src dst ...

apache-spark graph pyspark

вопрос задан: 19 March 2019 06:15

2

ответа

Вопрос о присоединении датафреймов в Spark

Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...

apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 18 March 2019 21:03

2

ответа

Конвертируйте функцию Pandas, наиболее подходящую в pyspark

Я использовал эту функцию для создания объекта временных рядов в Pandas, который возвращает (OLS?) Наиболее подходящий наклон данного диапазона точек: def best_fit (X, Y): xbar = sum (X) / len (X) ybar = ...

pandas pyspark user-defined-functions least-squares

вопрос задан: 18 March 2019 16:06

2

ответа

Как разрешить повторяющиеся имена столбцов при объединении двух фреймов данных в PySpark?

У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...

python apache-spark pyspark apache-spark-sql

вопрос задан: 12 March 2019 05:02

2

ответа

Как узнать значение параметра в функции

Я новичок в pyspark, у меня есть скрипт, как показано ниже; joinRatings = ratings.join (рейтинги) joinRatings.take (4) и вывод будет; [(196, ((242, 3,0), (242, 3,0))), (196, ((242, 3,0), (393, 4,0))), (...

python apache-spark pyspark

вопрос задан: 5 March 2019 09:59

2

ответа

Как создать схему PySpark для списка кортежей?

Какой должна быть правильная схема PySpark для следующего списка кортежей? Я хочу применить схему к следующим данным: [('a', 0.0), ('b', 6), ('c', 44), ('d', 107), ('e', 0 ), ('f', 3), ('g', 4) ...

apache-spark pyspark schema

вопрос задан: 4 March 2019 06:03

2

ответа

Преобразуйте значения в одном столбце в фрейме данных pyspark в нижний регистр при очистке текста, используя нижнюю функцию [duplicate]

Попытка преобразовать значения преобразования в отдельном столбце фрейма данных pyspark в нижний регистр для очистки текста с помощью функции .lower import pyspark.sql.functions как f f.lower (f.col (col ("subject")). Show () .. ,

python pyspark

вопрос задан: 20 February 2019 17:15

2

ответа

Ошибка импорта AWS Glue: невозможно импортировать имя explode_outer

Когда я пытаюсь запустить искровое задание в AWS Glue, появляется следующее сообщение об ошибке. ImportError: невозможно импортировать имя explode_outer. Если я запускаю тот же код в локальной установке spark, все работает нормально. ...

amazon-web-services pyspark aws-glue

вопрос задан: 17 January 2019 11:25

2

ответа

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...

python scala apache-spark pyspark apache-spark-sql

вопрос задан: 17 January 2019 10:49

2

ответа

Использование Spark с Flask с JDBC

Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы данных, провести некоторый анализ данных и затем загрузить новые данные в отдельную БД. Что случилось? Если я бегу Спарк мимо ...

python apache-spark jdbc flask pyspark

вопрос задан: 16 January 2019 16:53

2

ответа

Как улучшить это регулярное выражение для работы в других ситуациях?

Я могу разбить эту строку: 199.72.81.55 - - [01 / Jul / 1995: 00: 00: 01 -0400] "GET / history / apollo / HTTP / 1.0" 200 6245 с этим RegEx: '([(\ d \ .)] +) - - \ [(. *?) \] "(. *?)" (\ d +) (\ d +) 'Так как улучшить ...

pyspark regex python

вопрос задан: 16 January 2019 16:43

2

ответа

добавить пакет mmlspark в pyspark [дубликат]

Я пытаюсь использовать пакет mmlspark в pyspark и не могу импортировать модель. Мой блокнот jupyter подключен к кластеру. Я включил детали пакета в мою sparksession, как показано ниже. В ...

apache-spark pyspark

вопрос задан: 19 April 2018 01:38

2

ответа

Простой Pyspark UDF получает numpy ошибку с razorvine_pickle [дубликат]

У меня есть DataFrame с столбцами, содержащими данные, разделенные «|», которые я хочу дублировать по строке (например, для данного столбца, если определенная строка имеет следующую форму: 'a' | 'b' | 'c' , тогда я бы ...

python apache-spark pyspark

вопрос задан: 26 December 2017 12:43

2

ответа

Преобразовать строку, содержащую список для разделения строк на pyspark [duplicate]

У меня есть следующий dataframe на pyspark с несколькими строками (я показываю только первую строку для иллюстрации). Каждая строка для каждого столбца содержит список с таким же количеством элементов (3 в этом ...

python apache-spark pyspark

вопрос задан: 26 December 2017 05:16

2

ответа

Pyspark Взорвать два столбца массива, сохраняя при этом карту между ними [duplicate]

У меня есть фреймворк pyspark, где два столбца являются массивами и имеют один к одному соответствие (первый элемент первого массива сопоставляется первому элементу второго массива и т. Д.). Затем я создаю ...

apache-spark dataframe pyspark

вопрос задан: 26 December 2017 05:16

2

ответа

Как изменить все значения столбца dataframe в Spark [duplicate]

Итак, у меня есть dataframe: table Я хочу заменить каждую Iris-setosa на 0, каждый Iris-versicolor на 1 и каждую Iris-virginica на 2 в столбце Species, используя pyspark. Как это сделать?

python-3.x pyspark

вопрос задан: 9 October 2017 17:21

2

ответа

не удалось загрузить pyspark под anaconda [duplicate]

Я установил pyspark (pyspark-2.3.1-py37_1.tar). когда я пытаюсь импортировать, я получаю эту ошибку: [bin] $ ./conda list | grep -i spark pyspark 2.3.1 py37_1 & ...

python apache-spark pyspark anaconda

вопрос задан: 18 September 2017 19:12

2

ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...

python-3.x apache-spark dataframe pyspark apache-spark-sql

вопрос задан: 1 August 2017 02:56

2

ответа

Проблемы создания RDD LabeledPoint из dataframe в pyspark [duplicate]

Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...

python apache-spark pyspark apache-spark-2.0

вопрос задан: 28 December 2016 16:45

2

ответа

Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn ("id", monotonically_increasing_id ()) resultWithId.show (5, truncate = False) resultWithId.printSchema () Результат: ...

regex apache-spark pyspark databricks

вопрос задан: 1 November 2016 01:51

2

ответа

pyspark json взрывается для массива с нулевым или большим количеством элементов [duplicate]

У меня есть некоторые данные json с массивом, который может иметь ноль или более элементов. Ниже приведены данные. Когда я взорваюсь в массиве, строка с нулевыми элементами падает. В этом случае имя: Энди получает ...

apache-spark pyspark

вопрос задан: 28 September 2016 05:57

2

ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...

apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 10 September 2016 03:09