apache-spark-dataset - список вопросов по программированию apache-spark-dataset

3

ответа

как запросить большой файл json в столбце hive [duplicate]

У меня есть таблица hive содержит 3 столбца, один из них имеет большой json-файл. column.id, column.contextid, column.content 517229, exa, "{" my_array ": [{" col1 ":" col1 "," col2 ": 1}, {" col1 ":" col11 "," col2 " : 11}, { "col1":»...

вопрос задан: 24 December 2015 11:08

2

ответа

Древовидные / вложенные структуры в Spark из реляционной модели данных

Если я правильно понимаю, я мог бы рассматривать набор данных spark как список объектов типа T. Как можно объединить два набора данных так, чтобы родительский элемент содержал список дочерних элементов? Но и ребенок будет иметь ...

apache-spark apache-spark-dataset

вопрос задан: 17 March 2019 20:03

2

ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

вопрос задан: 11 August 2015 16:52

1

ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...

java apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 19 March 2019 11:18

1

ответ

объединить столбцы данных scala в одном классе

У меня есть датафрейм, который выглядит так: + -------- + ----- + -------------------- + | UID | н.о.р. | цвет | + -------- + ----- + -------------------- + | 41344966 | 1305 | красный | | ...

scala apache-spark apache-spark-dataset

вопрос задан: 28 February 2019 23:11

1

ответ

Самый быстрый и эффективный способ итерации большого набора данных в Java Spark

Я преобразую набор искровых данных в список хеш-карт, используя следующий подход. Моя конечная цель - создать либо список объектов json, либо список хеш-карт. Я выполняю этот код на 3,2 миллиона строк ...

java apache-spark iteration apache-spark-dataset

вопрос задан: 21 January 2019 15:18

1

ответ

DataFrame и DataSet - преобразование значений в < k, v > пара

Образец ввода (черный текст) и вывод (красный текст) У меня есть DataFrame (один в черном), как я могу преобразовать его в один, как в красном? (номер столбца, значение) [Изображение прилагается] val df = ...

apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 20 January 2019 05:42

1

ответ

Spark с использованием рекурсивного класса case

У меня есть рекурсивная структура данных. Spark выдает эту ошибку: Исключение в потоке "main" java.lang.UnsupportedOperationException: не может иметь циклические ссылки в классе, но получил циклическое ...

scala apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 18 January 2019 04:12

1

ответ

Группа SparkBy против перераспределения плюс mapPartitions

Мой набор данных ~ 20 миллионов строк, он занимает ~ 8 ГБ оперативной памяти. Я выполняю свою работу с 2 исполнителями, 10 ГБ ОЗУ на исполнителя, 2 ядра на исполнителя. Из-за дальнейших преобразований данные должны быть кэшированы все ...

apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 16 January 2019 14:43

1

ответ

Spark Java API: как преобразовать JavaRDD в тип RDD

Я пытаюсь преобразовать код, написанный с использованием Dataframe в DataSet API. Проблема в том, что я создал JavaRDD как: final JavaRDD & lt; String & gt; abcJavaRdd = jsc.textFile ("/ path / to / textfile"); Но ...

java apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 13 July 2018 21:35

1

ответ

Spark Dataset: как добавить объекты подкласса в набор данных родительского класса [duplicate]

Как я могу вернуть объекты подкласса в наборе данных родительского класса ?. Ниже кода компилируется, но последняя строка не работает во время выполнения с помощью «scala.ScalaReflectionException: не является термином». Любая помощь очень высока ...

apache-spark case-class apache-spark-dataset

вопрос задан: 22 February 2017 21:51

1

ответ

Передача ввода DataFrame в класс Case с членом любого типа [дубликат]

У меня есть DataFrame с различными типами столбцов. Для ясности, скажем, он структурирован, как показано ниже, с колонкой Ints, столбцом строк и столбцом Floats. + ------- + ------- + --...

scala apache-spark spark-dataframe apache-spark-dataset

вопрос задан: 6 January 2017 12:43

1

ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....

apache-spark dataframe apache-spark-sql hdfs apache-spark-dataset

вопрос задан: 12 August 2016 18:47

0

ответов

Связывание полей bean-компонентов со столбцами файлов во время загрузки файла в набор данных

Можно ли привязать имена столбцов заголовков к полям Java-бина, если они не имеют одинакового имени? Какой сериализатор использует Spark под крышкой? Когда я пытаюсь создать набор данных, загружающий CSV-файл ...

apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 3 March 2019 19:04

0

ответов

структура и массив во фрейме данных, показывающий тип данных в виде строки в pyspark

У меня есть файл Json, как упомянуто ниже, который имеет массив и структуру для одного элемента Json, поэтому после чтения этого файла JSON с помощью фрейма данных pyspark получите тип данных «String» вместо Array / Struct. ...

pyspark-sql apache-spark-dataset pyspark apache-spark json

вопрос задан: 16 January 2019 12:37