У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...
Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...
Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...
В pyspark (2.2.0) у меня есть список из 100 000 ключевых значений. Когда я делаю распараллеливание по 16 разделам, я получаю предупреждение & gt; & gt; & gt; & gt; & gt; sc.parallelize (my_list, 16) .take (3) Этап искры xx содержит ...
У меня есть Spark Dataframe с двумя столбцами; src_edge и dest_edge. Я просто хочу создать новый фрейм данных spark, чтобы он содержал один идентификатор столбца со значениями из src_edge и dest_edge. src dst ...
Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...
Я использовал эту функцию для создания объекта временных рядов в Pandas, который возвращает (OLS?) Наиболее подходящий наклон данного диапазона точек: def best_fit (X, Y): xbar = sum (X) / len (X) ybar = ...
У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...
Я новичок в pyspark, у меня есть скрипт, как показано ниже; joinRatings = ratings.join (рейтинги) joinRatings.take (4) и вывод будет; [(196, ((242, 3,0), (242, 3,0))), (196, ((242, 3,0), (393, 4,0))), (...
Какой должна быть правильная схема PySpark для следующего списка кортежей? Я хочу применить схему к следующим данным: [('a', 0.0), ('b', 6), ('c', 44), ('d', 107), ('e', 0 ), ('f', 3), ('g', 4) ...
Попытка преобразовать значения преобразования в отдельном столбце фрейма данных pyspark в нижний регистр для очистки текста с помощью функции .lower import pyspark.sql.functions как f f.lower (f.col (col ("subject")). Show () .. ,
Когда я пытаюсь запустить искровое задание в AWS Glue, появляется следующее сообщение об ошибке. ImportError: невозможно импортировать имя explode_outer. Если я запускаю тот же код в локальной установке spark, все работает нормально. ...
У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...
Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы данных, провести некоторый анализ данных и затем загрузить новые данные в отдельную БД. Что случилось? Если я бегу Спарк мимо ...
Я могу разбить эту строку: 199.72.81.55 - - [01 / Jul / 1995: 00: 00: 01 -0400] "GET / history / apollo / HTTP / 1.0" 200 6245 с этим RegEx: '([(\ d \ .)] +) - - \ [(. *?) \] "(. *?)" (\ d +) (\ d +) 'Так как улучшить ...
Я пытаюсь использовать пакет mmlspark в pyspark и не могу импортировать модель. Мой блокнот jupyter подключен к кластеру. Я включил детали пакета в мою sparksession, как показано ниже. В ...
У меня есть DataFrame с столбцами, содержащими данные, разделенные «|», которые я хочу дублировать по строке (например, для данного столбца, если определенная строка имеет следующую форму: 'a' | 'b' | 'c' , тогда я бы ...
У меня есть следующий dataframe на pyspark с несколькими строками (я показываю только первую строку для иллюстрации). Каждая строка для каждого столбца содержит список с таким же количеством элементов (3 в этом ...
У меня есть фреймворк pyspark, где два столбца являются массивами и имеют один к одному соответствие (первый элемент первого массива сопоставляется первому элементу второго массива и т. Д.). Затем я создаю ...
Итак, у меня есть dataframe: table Я хочу заменить каждую Iris-setosa на 0, каждый Iris-versicolor на 1 и каждую Iris-virginica на 2 в столбце Species, используя pyspark. Как это сделать?
Я установил pyspark (pyspark-2.3.1-py37_1.tar). когда я пытаюсь импортировать, я получаю эту ошибку: [bin] $ ./conda list | grep -i spark pyspark 2.3.1 py37_1 & ...
Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...
У меня есть некоторые данные json с массивом, который может иметь ноль или более элементов. Ниже приведены данные. Когда я взорваюсь в массиве, строка с нулевыми элементами падает. В этом случае имя: Энди получает ...
У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...