15
ответов

SparkSQL - ошибка в схеме [дубликат]

Я пытался подсчитать данные столбца с именем doctorid, используя разные, но это ошибка. Кто-нибудь может мне помочь, пожалуйста? Я буду благодарен. Полный код приведен ниже. & GT Scala; импортировать sqlContext ....
вопрос задан: 20 October 2014 10:13
11
ответов

Не содержит & lt; & gt; работа над нулевым значением [дубликат]

У меня есть следующий код: test («& lt; gt; on null values») {val spark = SparkSession.builder (). EnableHiveSupport (). Master ("local"). AppName ("& lt; gt; on null values"). .getOrCreate () import spark ....
вопрос задан: 9 October 2014 13:24
10
ответов

Автоматически и элегантно сглаживает DataFrame в Spark SQL

Все, есть ли элегантный и приемлемый способ выравнивания таблицы Spark SQL (Parquet) со столбцами, которые имеют вложенный StructType Например, если моя схема: foo | _bar | _baz x y z Как мне выбрать ее ...
вопрос задан: 26 May 2016 21:30
8
ответов

Ни одно подходящее исключение драйвера не работает во время работы над программой Spark-JDBC [дубликат]

Я пытаюсь прочитать таблицу, которая присутствует в postgres db, используя spark-jdbc. Для этого я придумал следующий код: object PartitionRetrieval {var conf = new SparkConf (). SetAppName ("...
вопрос задан: 29 August 2017 10:09
8
ответов

Как проверить наличие пустых данных Условие в искровом наборе данных в JAVA [дубликат]

Я пытаюсь выполнить проверку набора данных результата в иске, является ли он пустым или имеет данные. Я сделал следующее ниже. . Dataset.rdd () IsEmpty (); 2. Попробуйте {dataset.head (1)} ...
вопрос задан: 22 September 2015 02:52
7
ответов

Как выводить больше коррелированных столбцов, которые не входят в столбцы groupBy и aggregation [duplicate]

Я новичок в Spark, и я столкнулся с этой простой проблемой. У меня есть dataframe, как это: scala & gt; testDF.show + ------- + --- + ----- + | страна | ID | цена | + ------- + --- + ----- + | США | 1 | 100 | | США | 2 | ...
вопрос задан: 26 December 2017 01:35
7
ответов

pyspark.sql.utils.IllegalArgumentException: u «Ошибка при создании экземпляра при чтении csv [duplicate]

Я пытаюсь читать csv-файл из S3, используя переменную url & gt; & gt; & gt; & gt; m = spark.read.csv (url, header = "true", sep = ",") Но я получаю сообщение об ошибке, как показано ниже. Traceback (последний последний звонок): ...
вопрос задан: 22 March 2017 05:11
6
ответов

Как создать DF с условными предложениями [duplicate]

Это оригинальный ключ данных val =================== 1 a 2 b 3 c 1 b 2 b 3 a, и я хочу это сделать. key count_a ...
вопрос задан: 10 November 2015 14:43
6
ответов

Каков правильный способ чтения JScript-файла Spark Session? [Дубликат]

Я работаю над приложением SpringBoot, которому необходимо подключиться к локальному экземпляру Spark 2.2.1 (Docker), прочитать простой json-файл и отобразить его в журнале. Я создал файл /tmp/people.json: ls -l / ...
вопрос задан: 14 July 2014 12:42
5
ответов

Не удалось получить имена фактических столбцов из файла ORC в Spark [duplicate]

Мы запускаем два кластера Hadoop, на котором работает только Hive, а другой работает только Spark. Теперь я пытаюсь прочитать таблицу улья, читая файлы ORC непосредственно в искровом режиме. sparkSession.read.orc (...
вопрос задан: 10 October 2016 12:45
5
ответов

искровый случай класс udf выход как dataframe [дубликат]

У меня есть udf, который извлекает геополя из ip-адреса. ниже - класс кода фрагмента кода IpLocation (countryName: String, region: String, city: String, postalCode: String, широта: String, longitude: ...
вопрос задан: 26 October 2015 13:04
5
ответов

Подсчет частоты упорядоченной последовательности (запусков) в данных с использованием SQL [duplicate]

Я пытаюсь найти способ определить последовательность упорядоченных прогонов и как часто они происходят. Возьмем пример ниже - у меня есть список первых 3 колотит в линейке для каждой игры, какое число они ...
вопрос задан: 23 September 2015 17:00
5
ответов

Прочитайте файл паркета на несколько разделов [duplicate]

Я использую Spark 1.2.1 (Ancient, я знаю, но это то, что я могу использовать на данный момент.) И пытаясь прочитать файл паркета размером около 4,5 ГБ с помощью sparksql, как это (я буду избегать шаблона) val schemaRDD: ...
вопрос задан: 3 December 2014 18:02
4
ответа

Как сохранить данные в формате текстового файла GZ в pyspark? ((Но не в формате csv) [дублировать]

У меня есть фрейм данных, как показано ниже + ------- + ------ + ---- + ---- + | | b | c | d | + ------- + ----------- + ---- + | 101 | 244 | 4 | 1 | | 101 | 245 | 5 | 0 | | 101 | 313 | 2 | 0 | | ...
вопрос задан: 28 November 2016 21:06
4
ответа

Как выполнить операцию слияния в искре [дубликат]

Поскольку у меня нет режима upsert в искровом sql, я пытаюсь выполнить операцию слияния в самой Spark sql. Моя таблица Target будет Oracle. У меня есть 2 DFF, один - набор данных History, а другой - инкрементный ...
вопрос задан: 6 January 2016 22:33
4
ответа

Чтобы обновить таблицу базы данных, используя SparkSQL [duplicate]

Я пытаюсь выполнить операции с базой данных с помощью SparkSQL и Pyspark. Я использую DB Postgresql и использую DataFrameReader и Writer с пакетом jdbc. Мне нужно обновить несколько строк через ...
вопрос задан: 6 January 2016 22:33
4
ответа

Почему искра занимает время, чтобы выделить исполнителей и память перед отправкой задания [дублировать]

Я занимаюсь искровым заданием, занимающим 18 лет, в течение 8 секунд для фактической логики обработки (бизнес-логика) и 10 секунд для распределения исполнителей и памяти. Любые идеи о том, как сократить время до начала искры ...
вопрос задан: 23 November 2015 02:30
4
ответа

Как использовать методы объектов в каждой строке фрейма искры в scala [duplicate]

Я создал RDD с тремя столбцами, классы которых - WrappedArray, SparseVector и DenseVector соответственно. Однако, когда я хочу вызывать методы любого объекта SparseVector, этот объект ...
вопрос задан: 8 October 2015 11:36
3
ответа

Конвертировать 20180918 в 2018-09-18 в Spark?

Заданный фрейм данных: + ----------------- + --------- + ----------------- + | user_id | ID | дата | скидка | год | + ----------------- + --------- + ----------------- + | 44143827 | 118775509 | 20180103 | 0 ....
вопрос задан: 20 March 2019 05:35
3
ответа

спарк ETL с объединениями из нескольких источников

У меня есть требование соединить 50 нечетных файлов на наборе из 3 ключей, используя кадры данных spark. У меня есть таблица драйверов, которая имеет 100000 записей в день. Я оставил присоединиться к этой таблице с 53 другими файлами, используя фреймы дан
вопрос задан: 16 January 2019 16:52
3
ответа

Spark: как данные перераспределения groupBy [дубликаты]

Все в заголовке: из DataFrame примените df.groupBy ($ "col1", $ "col2", $ "col3"). Agg (...) Как кадр данных перераспределяется в кластер? Разделяет ли данные данные по заданным ключам, ...
вопрос задан: 4 December 2017 02:49
3
ответа

Искры-java: Исключение в thread & ldquo; main & rdquo; org.apache.spark.sql.AnalysisException [duplicate]

У меня ниже запрос, который отлично работает на SQL DEVELOPER: SELECT C.CIS_DIVISION, C.EFFDT AS START_DT, LEAD (EFFDT, 1) OVER (PARTITION by CIS_DIVISION, CHAR_TYPE_CD ORDER BY CIS_DIVISION, CHAR_TYPE_CD, ...
вопрос задан: 19 October 2016 16:32
3
ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
вопрос задан: 13 March 2016 14:08
3
ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
вопрос задан: 7 February 2016 19:15
3
ответа

Spark SQL-Running Query в HiveContext vs DataFrame [дубликат]

Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...
вопрос задан: 7 February 2016 19:15
3
ответа

как запросить большой файл json в столбце hive [duplicate]

У меня есть таблица hive содержит 3 столбца, один из них имеет большой json-файл. column.id, column.contextid, column.content 517229, exa, "{" my_array ": [{" col1 ":" col1 "," col2 ": 1}, {" col1 ":" col11 "," col2 " : 11}, { "col1":»...
вопрос задан: 24 December 2015 11:08
3
ответа

How & ldquo; add & rdquo; разделительная колонна для искровой схемы? [Дубликат]

Я пытаюсь читать данные orc из s3 liek, которые: spark.read.option ("mergeSchema", "true") .orc ("s3n: // my_bucket / folder / *"). В папке есть подпапка вроде: my_date = 2018 -01-01, my_date = 2018-01-02 ...
вопрос задан: 11 November 2015 13:19
2
ответа

Вопрос о присоединении датафреймов в Spark

Предположим, у меня есть два секционированных кадра данных: df1 = spark.createDataFrame ([(x, x, x) для x в диапазоне (5)], ['key1', 'key2', 'time']) .repartition (3, ' key1 ',' key2 ') df2 = spark.createDataFrame ([(...
вопрос задан: 18 March 2019 21:03
2
ответа

Как разрешить повторяющиеся имена столбцов при объединении двух фреймов данных в PySpark?

У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...
вопрос задан: 12 March 2019 05:02
2
ответа

Как читать кадр данных построчно, не меняя порядок? в Spark Scala

У меня есть датафрейм, который содержит последовательность строк. Я хочу перебирать строки по очереди без изменения порядка. Я попытался ниже код. & GT Scala; val df = Seq (| (0, "Load", "employeeview", "...
вопрос задан: 22 February 2019 11:44