3
ответа

Использование JDBC в Apache Spark для подключения к MS SQL Server 2008 R2 [дубликат]

У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...
вопрос задан: 13 March 2016 14:08
3
ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
вопрос задан: 13 March 2016 14:08
3
ответа

Pyspark - обновление определенных столбцов в таблице mysql [дубликат]

Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & ​​amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...
вопрос задан: 25 February 2016 19:02
3
ответа

Обновление таблицы mysql с использованием Spark [duplicate]

Возможно ли обновить таблицу mysql с помощью jdbc в искровом режиме? Если нет, то, что нужно для обновления?
вопрос задан: 25 February 2016 19:02
3
ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
вопрос задан: 7 February 2016 19:15
3
ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
вопрос задан: 24 December 2015 11:08
3
ответа

Невозможно получить доступ к внешней переменной в pyspark UDF [duplicate]

У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...
вопрос задан: 28 April 2015 05:04
3
ответа

Объяснение для предупреждения Spark Stage xx содержит задачу с очень большим размером [дублировать]

В pyspark (2.2.0) у меня есть список из 100 000 ключевых значений. Когда я делаю распараллеливание по 16 разделам, я получаю предупреждение & gt; & gt; & gt; & gt; & gt; sc.parallelize (my_list, 16) .take (3) Этап искры xx содержит ...
вопрос задан: 24 April 2015 21:22
2
ответа

Объединить два столбца в искровом фрейме данных в один столбец

У меня есть Spark Dataframe с двумя столбцами; src_edge и dest_edge. Я просто хочу создать новый фрейм данных spark, чтобы он содержал один идентификатор столбца со значениями из src_edge и dest_edge. src dst ...
вопрос задан: 19 March 2019 06:15
2
ответа

Вопрос о присоединении датафреймов в Spark

Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...
вопрос задан: 18 March 2019 21:03
2
ответа

Конвертируйте функцию Pandas, наиболее подходящую в pyspark

Я использовал эту функцию для создания объекта временных рядов в Pandas, который возвращает (OLS?) Наиболее подходящий наклон данного диапазона точек: def best_fit (X, Y): xbar = sum (X) / len (X) ybar = ...
вопрос задан: 18 March 2019 16:06
2
ответа

Как разрешить повторяющиеся имена столбцов при объединении двух фреймов данных в PySpark?

У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...
вопрос задан: 12 March 2019 05:02
2
ответа

Как узнать значение параметра в функции

Я новичок в pyspark, у меня есть скрипт, как показано ниже; joinRatings = ratings.join (рейтинги) joinRatings.take (4) и вывод будет; [(196, ((242, 3,0), (242, 3,0))), (196, ((242, 3,0), (393, 4,0))), (...
вопрос задан: 5 March 2019 09:59
2
ответа

Как создать схему PySpark для списка кортежей?

Какой должна быть правильная схема PySpark для следующего списка кортежей? Я хочу применить схему к следующим данным: [('a', 0.0), ('b', 6), ('c', 44), ('d', 107), ('e', 0 ), ('f', 3), ('g', 4) ...
вопрос задан: 4 March 2019 06:03
2
ответа

Преобразуйте значения в одном столбце в фрейме данных pyspark в нижний регистр при очистке текста, используя нижнюю функцию [duplicate]

Попытка преобразовать значения преобразования в отдельном столбце фрейма данных pyspark в нижний регистр для очистки текста с помощью функции .lower import pyspark.sql.functions как f f.lower (f.col (col ("subject")). Show () .. ,
вопрос задан: 20 February 2019 17:15
2
ответа

Ошибка импорта AWS Glue: невозможно импортировать имя explode_outer

Когда я пытаюсь запустить искровое задание в AWS Glue, появляется следующее сообщение об ошибке. ImportError: невозможно импортировать имя explode_outer. Если я запускаю тот же код в локальной установке spark, все работает нормально. ...
вопрос задан: 17 January 2019 11:25
2
ответа

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...
вопрос задан: 17 January 2019 10:49
2
ответа

Использование Spark с Flask с JDBC

Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы данных, провести некоторый анализ данных и затем загрузить новые данные в отдельную БД. Что случилось? Если я бегу Спарк мимо ...
вопрос задан: 16 January 2019 16:53
2
ответа

Как улучшить это регулярное выражение для работы в других ситуациях?

Я могу разбить эту строку: 199.72.81.55 - - [01 / Jul / 1995: 00: 00: 01 -0400] "GET / history / apollo / HTTP / 1.0" 200 6245 с этим RegEx: '([(\ d \ .)] +) - - \ [(. *?) \] "(. *?)" (\ d +) (\ d +) 'Так как улучшить ...
вопрос задан: 16 January 2019 16:43
2
ответа

добавить пакет mmlspark в pyspark [дубликат]

Я пытаюсь использовать пакет mmlspark в pyspark и не могу импортировать модель. Мой блокнот jupyter подключен к кластеру. Я включил детали пакета в мою sparksession, как показано ниже. В ...
вопрос задан: 19 April 2018 01:38
2
ответа

Простой Pyspark UDF получает numpy ошибку с razorvine_pickle [дубликат]

У меня есть DataFrame с столбцами, содержащими данные, разделенные «|», которые я хочу дублировать по строке (например, для данного столбца, если определенная строка имеет следующую форму: 'a' | 'b' | 'c' , тогда я бы ...
вопрос задан: 26 December 2017 12:43
2
ответа

Преобразовать строку, содержащую список для разделения строк на pyspark [duplicate]

У меня есть следующий dataframe на pyspark с несколькими строками (я показываю только первую строку для иллюстрации). Каждая строка для каждого столбца содержит список с таким же количеством элементов (3 в этом ...
вопрос задан: 26 December 2017 05:16
2
ответа

Pyspark Взорвать два столбца массива, сохраняя при этом карту между ними [duplicate]

У меня есть фреймворк pyspark, где два столбца являются массивами и имеют один к одному соответствие (первый элемент первого массива сопоставляется первому элементу второго массива и т. Д.). Затем я создаю ...
вопрос задан: 26 December 2017 05:16
2
ответа

Как изменить все значения столбца dataframe в Spark [duplicate]

Итак, у меня есть dataframe: table Я хочу заменить каждую Iris-setosa на 0, каждый Iris-versicolor на 1 и каждую Iris-virginica на 2 в столбце Species, используя pyspark. Как это сделать?
вопрос задан: 9 October 2017 17:21
2
ответа

не удалось загрузить pyspark под anaconda [duplicate]

Я установил pyspark (pyspark-2.3.1-py37_1.tar). когда я пытаюсь импортировать, я получаю эту ошибку: [bin] $ ./conda list | grep -i spark pyspark 2.3.1 py37_1 & ...
вопрос задан: 18 September 2017 19:12
2
ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...
вопрос задан: 1 August 2017 02:56
2
ответа

Проблемы создания RDD LabeledPoint из dataframe в pyspark [duplicate]

Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...
вопрос задан: 28 December 2016 16:45
2
ответа

Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn ("id", monotonically_increasing_id ()) resultWithId.show (5, truncate = False) resultWithId.printSchema () Результат: ...
вопрос задан: 1 November 2016 01:51
2
ответа

pyspark json взрывается для массива с нулевым или большим количеством элементов [duplicate]

У меня есть некоторые данные json с массивом, который может иметь ноль или более элементов. Ниже приведены данные. Когда я взорваюсь в массиве, строка с нулевыми элементами падает. В этом случае имя: Энди получает ...
вопрос задан: 28 September 2016 05:57
2
ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...
вопрос задан: 10 September 2016 03:09