У меня очень большой массив с 10 кадрами данных внутри белого цвета содержит около тысячи входных данных (из набора данных улья). как я могу узнать размер этого массива по байтам?
Я пытаюсь прочитать несколько паркетных файлов из ведра s3, содержащего данные за несколько дней. s3 путь: s3n: // & lt; s3path & gt; /dt=*/*.snappy.parquet Код Pyspark для чтения данных из нескольких ...
У меня есть предопределенный список категорий. Около 20 из них. И DataFrame элементов, каждый из которых имеет до 3 категорий. И мне интересно, существует ли какой-либо эффективный встроенный метод для построения ...
[Я новичок в PySpark. Если это дубликат для какого-то существующего вопроса, хотя я не могу его найти, укажите мне. Спасибо.] У меня есть набор данных, где из каждых четырех последовательных значений сначала ...
У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...
Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...
table like: id, name.salary 1, abc, 25 2, acd, 45 then, если я хочу обновить его через искру df.write .mode (SaveMode.Append) .jdbc (conn_str, tableName, prop), но suing saveMode мы не могу ...
Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...
У меня есть таблица hive содержит 3 столбца, один из них имеет большой json-файл. column.id, column.contextid, column.content 517229, exa, "{" my_array ": [{" col1 ":" col1 "," col2 ": 1}, {" col1 ":" col11 "," col2 " : 11}, { "col1":»...
My Input - это файл, в котором JSON был сконденсирован в один столбец: Пример файла необработанных данных: 1 JWTERRELIG.HMS_834_061118.txt "{" "loopid" ":" ST "", "" segment "": [{" "segmentid" ":" "ST"», "" содержание "": ...
Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
Структура записи «& lt; id & gt;», «{« name »:« abc », адреса: [{« улица »:« новая улица »,« город »:« NY », почтовый индекс:« 007 »}, {« улица ":" новая улица "," город ":" JU ", zip:" 009 "}]}", "& lt; date & gt;" Что нужно читать ...
Я пытаюсь взорвать или свернуть столбец «Тело», который имеет двоичный тип данных. После преобразования тела столбца в строку данные просматриваются в следующем формате {"header": {"name": "XYZ", "...
Я новичок в Spark. Я хочу изучить Spark через язык программирования Java. Как это работает, почему это хорошо, как работает Streaming, все, что я хочу настроить и выяснить. пожалуйста, помогите мне. Спасибо ...
Я пытаюсь запустить работу spark2-submit в hdfs, за исключением того, что он продолжает предоставлять ошибку java.lang.ClassNotFoundException: ca.Main at java.net.URLClassLoader.findClass (URLClassLoader.java:381) ...
У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...
В pyspark (2.2.0) у меня есть список из 100 000 ключевых значений. Когда я делаю распараллеливание по 16 разделам, я получаю предупреждение & gt; & gt; & gt; & gt; & gt; sc.parallelize (my_list, 16) .take (3) Этап искры xx содержит ...
Я запускаю программу искрообразования, которая может контролировать и читать файлы из каталога HDFS. Однако я не мог читать уже существующие файлы в каталоге HDFS, если я запускаю streamig для ...
Я попытался написать простой контроллер отдыха в Springboot, который принимает файл и строку и ищет в этом файле, сколько раз строка находится, в основном поиск и подсчет слов. У меня есть мастер ...
У меня есть фрейм данных R, который я хотел бы преобразовать в фрейм данных Spark на удаленном кластере. Я решил записать свой фрейм данных в промежуточный CSV-файл, который затем читается с использованием sparklyr :: ...
Я хочу создать веб-сайт, который будет принимать входной файл и обрабатывать его на Apache Spark в серверной части, а затем отправлять обратно на веб-сайт. Я не понимаю, как подключить искры, работающие на ...
У меня есть следующая функция, которая выравнивает последовательность отображений строки, чтобы удвоить. Как я могу сделать тип строки для двойного универсального? val flattenSeqOfMaps = udf {values: Seq [Map [String, Double]] = > ...
У меня есть Spark Dataframe с двумя столбцами; src_edge и dest_edge. Я просто хочу создать новый фрейм данных spark, чтобы он содержал один идентификатор столбца со значениями из src_edge и dest_edge. src dst ...
Я получаю следующую ошибку при запуске следующей команды через spark-shell. Я также добавил банку maprfs в свой bash_profile, как показано ниже. Я попробовал большинство решений из аналогичных постов, ...
Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...