3
ответа

Размер массива Scala by byte [duplicate]

У меня очень большой массив с 10 кадрами данных внутри белого цвета содержит около тысячи входных данных (из набора данных улья). как я могу узнать размер этого массива по байтам?
вопрос задан: 27 July 2016 14:10
3
ответа

Чтение нескольких паркетных файлов из S3 Bucket [duplicate]

Я пытаюсь прочитать несколько паркетных файлов из ведра s3, содержащего данные за несколько дней. s3 путь: s3n: // & lt; s3path & gt; /dt=*/*.snappy.parquet Код Pyspark для чтения данных из нескольких ...
вопрос задан: 16 May 2016 15:09
3
ответа

Spark scala: построить двоичные векторы из категорий [duplicate]

У меня есть предопределенный список категорий. Около 20 из них. И DataFrame элементов, каждый из которых имеет до 3 категорий. И мне интересно, существует ли какой-либо эффективный встроенный метод для построения ...
вопрос задан: 25 April 2016 10:26
3
ответа

Файловый фрейм PySpark - Замените последовательные значения NaN в столбце с предыдущим допустимым значением [duplicate]

[Я новичок в PySpark. Если это дубликат для какого-то существующего вопроса, хотя я не могу его найти, укажите мне. Спасибо.] У меня есть набор данных, где из каждых четырех последовательных значений сначала ...
вопрос задан: 4 April 2016 15:35
3
ответа

Использование JDBC в Apache Spark для подключения к MS SQL Server 2008 R2 [дубликат]

У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...
вопрос задан: 13 March 2016 14:08
3
ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
вопрос задан: 13 March 2016 14:08
3
ответа

Pyspark - обновление определенных столбцов в таблице mysql [дубликат]

Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & ​​amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...
вопрос задан: 25 February 2016 19:02
3
ответа

Как обновить таблицу через искровое sql? [Дубликат]

table like: id, name.salary 1, abc, 25 2, acd, 45 then, если я хочу обновить его через искру df.write .mode (SaveMode.Append) .jdbc (conn_str, tableName, prop), но suing saveMode мы не могу ...
вопрос задан: 25 February 2016 19:02
3
ответа

Обновление таблицы mysql с использованием Spark [duplicate]

Возможно ли обновить таблицу mysql с помощью jdbc в искровом режиме? Если нет, то, что нужно для обновления?
вопрос задан: 25 February 2016 19:02
3
ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
вопрос задан: 7 February 2016 19:15
3
ответа

Spark SQL-Running Query в HiveContext vs DataFrame [дубликат]

Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...
вопрос задан: 7 February 2016 19:15
3
ответа

как запросить большой файл json в столбце hive [duplicate]

У меня есть таблица hive содержит 3 столбца, один из них имеет большой json-файл. column.id, column.contextid, column.content 517229, exa, "{" my_array ": [{" col1 ":" col1 "," col2 ": 1}, {" col1 ":" col11 "," col2 " : 11}, { "col1":»...
вопрос задан: 24 December 2015 11:08
3
ответа

Вложенные данные в одном столбце [дубликат]

My Input - это файл, в котором JSON был сконденсирован в один столбец: Пример файла необработанных данных: 1 JWTERRELIG.HMS_834_061118.txt "{" "loopid" ":" ST "", "" segment "": [{" "segmentid" ":" "ST"», "" содержание "": ...
вопрос задан: 24 December 2015 11:08
3
ответа

Как извлечь информацию из столбца json_like из фреймворка pyspark? [Дубликат]

Я занимаюсь анализом с использованием фреймворка pyspark. Существует один столбец: json_data. Он выглядит следующим образом: Затем я попытался преобразовать его в формате словаря, используя следующий код: from ...
вопрос задан: 24 December 2015 11:08
3
ответа

scala spark, читающий файл с разделителями табуляции, который также имеет строку json [duplicate]

Структура записи «& lt; id & gt;», «{« name »:« abc », адреса: [{« улица »:« новая улица »,« город »:« NY », почтовый индекс:« 007 »}, {« улица ":" новая улица "," город ":" JU ", zip:" 009 "}]}", "& lt; date & gt;" Что нужно читать ...
вопрос задан: 24 December 2015 11:08
3
ответа

Разрыв двоичного значения столбца [дубликат]

Я пытаюсь взорвать или свернуть столбец «Тело», который имеет двоичный тип данных. После преобразования тела столбца в строку данные просматриваются в следующем формате {"header": {"name": "XYZ", "...
вопрос задан: 24 December 2015 11:08
3
ответа

How & ldquo; add & rdquo; разделительная колонна для искровой схемы? [Дубликат]

Я пытаюсь читать данные orc из s3 liek, которые: spark.read.option ("mergeSchema", "true") .orc ("s3n: // my_bucket / folder / *"). В папке есть подпапка вроде: my_date = 2018 -01-01, my_date = 2018-01-02 ...
вопрос задан: 11 November 2015 13:19
3
ответа

Что локально [2] в setMaster (& ldquo; local [2] & rdquo;). Set (& ldquo; spark.executor.memory & rdquo ;, & ldquo; 2g & rdquo;)? [Дубликат]

Я новичок в Spark. Я хочу изучить Spark через язык программирования Java. Как это работает, почему это хорошо, как работает Streaming, все, что я хочу настроить и выяснить. пожалуйста, помогите мне. Спасибо ...
вопрос задан: 2 September 2015 14:38
3
ответа

Spark2-Submit с пряжей, ClassNotFoundException [duplicate]

Я пытаюсь запустить работу spark2-submit в hdfs, за исключением того, что он продолжает предоставлять ошибку java.lang.ClassNotFoundException: ca.Main at java.net.URLClassLoader.findClass (URLClassLoader.java:381) ...
вопрос задан: 13 August 2015 08:56
3
ответа

Невозможно получить доступ к внешней переменной в pyspark UDF [duplicate]

У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...
вопрос задан: 28 April 2015 05:04
3
ответа

Объяснение для предупреждения Spark Stage xx содержит задачу с очень большим размером [дублировать]

В pyspark (2.2.0) у меня есть список из 100 000 ключевых значений. Когда я делаю распараллеливание по 16 разделам, я получаю предупреждение & gt; & gt; & gt; & gt; & gt; sc.parallelize (my_list, 16) .take (3) Этап искры xx содержит ...
вопрос задан: 24 April 2015 21:22
3
ответа

Spark: Могу ли я использовать один и тот же аккумулятор для разных преобразований? [Дубликат]

Я хочу знать, может ли один экземпляр аккумулятора использоваться для различных преобразований в искровом свете. Я использую Spark 1.6.1, Java 8.
вопрос задан: 15 April 2015 15:42
3
ответа

ssc.filestream не может прочитать уже существующие файлы в каталоге [duplicate]

Я запускаю программу искрообразования, которая может контролировать и читать файлы из каталога HDFS. Однако я не мог читать уже существующие файлы в каталоге HDFS, если я запускаю streamig для ...
вопрос задан: 14 March 2015 11:04
2
ответа

Как исправить: java.io.NotSerializableException: org.apache.spark.api.java.JavaSparkContext для wordCountProgram

Я попытался написать простой контроллер отдыха в Springboot, который принимает файл и строку и ищет в этом файле, сколько раз строка находится, в основном поиск и подсчет слов. У меня есть мастер ...
вопрос задан: 25 June 2019 19:42
2
ответа

Функция для преобразования типов R в типы Spark

У меня есть фрейм данных R, который я хотел бы преобразовать в фрейм данных Spark на удаленном кластере. Я решил записать свой фрейм данных в промежуточный CSV-файл, который затем читается с использованием sparklyr :: ...
вопрос задан: 28 March 2019 05:39
2
ответа

Как мне связать Apache spark с веб-сайтом для отображения результата?

Я хочу создать веб-сайт, который будет принимать входной файл и обрабатывать его на Apache Spark в серверной части, а затем отправлять обратно на веб-сайт. Я не понимаю, как подключить искры, работающие на ...
вопрос задан: 21 March 2019 12:46
2
ответа

Свести последовательность карт для отображения с использованием полиморфизма типов в Scala, Spark UDF

У меня есть следующая функция, которая выравнивает последовательность отображений строки, чтобы удвоить. Как я могу сделать тип строки для двойного универсального? val flattenSeqOfMaps = udf {values: Seq [Map [String, Double]] = > ...
вопрос задан: 19 March 2019 17:35
2
ответа

Объединить два столбца в искровом фрейме данных в один столбец

У меня есть Spark Dataframe с двумя столбцами; src_edge и dest_edge. Я просто хочу создать новый фрейм данных spark, чтобы он содержал один идентификатор столбца со значениями из src_edge и dest_edge. src dst ...
вопрос задан: 19 March 2019 06:15
2
ответа

java.io.IOException: нет файловой системы для схемы: maprfs. Добавление jar maprfs в bash_profile не работает

Я получаю следующую ошибку при запуске следующей команды через spark-shell. Я также добавил банку maprfs в свой bash_profile, как показано ниже. Я попробовал большинство решений из аналогичных постов, ...
вопрос задан: 18 March 2019 23:09
2
ответа

Вопрос о присоединении датафреймов в Spark

Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...
вопрос задан: 18 March 2019 21:03