apache-spark-sql - список вопросов по программированию apache-spark-sql

2

ответа

Spark SQL фильтр нескольких похожих полей

Есть ли лучший способ написать фильтр нескольких условий, которые похожи по своей природе на кадре данных искры. Предполагая, что df является кадром данных искры, имеющим столбцы меток времени t1, t2, t3, t4. val FilterDF = ...

apache-spark apache-spark-sql

вопрос задан: 19 January 2019 06:24

2

ответа

Сумма MySQL по окну, содержащему нулевое значение, возвращает нулевое

Я пытаюсь получить сумму дохода за последние 3 месяца (за исключением текущей строки) для каждого клиента. Минимальный пример с текущей попыткой в Databricks: cols = ['Client', 'Month', 'Revenue'] ...

вопрос задан: 18 January 2019 16:50

2

ответа

Как объединить два DataFrame с объединенными столбцами в Spark?

Я не понимаю, как я могу объединить 2 таких DataFrame друг с другом. Первый DataFrame хранит информацию о времени запроса пользователя в сервисный центр. Давайте назовем этот DataFrame df1: + ----------- + --...

java scala apache-spark apache-spark-sql

вопрос задан: 18 January 2019 13:34

2

ответа

Как рассчитать среднее значение в одной группе?

У меня есть такой фрейм данных: + ----- + --------- + --------- + | Категория | Amt | цена | + ----- + --------- + --------- + | | 100 | 1 | | | 180 | 2 | | | 250 | 3 | | ...

apache-spark-sql scala apache-spark

вопрос задан: 18 January 2019 09:20

2

ответа

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...

python scala apache-spark pyspark apache-spark-sql

вопрос задан: 17 January 2019 10:49

2

ответа

Знает ли фрейм данных тип столбца?

После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не его тип. Однако после личного вызова функции printSchema для dataframe имя ...

dataset apache-spark-sql dataframe apache-spark

вопрос задан: 17 January 2019 01:28

2

ответа

Почему Spark не может правильно загружать столбцы из HDFS? [Дубликат]

Ниже я предоставляю свою схему и код, который я использую для чтения разделов в hdfs. Примером раздела может быть этот путь: / home / maria_dev / data / key = ключ / дата = 19 января (и, конечно, внутри этого ...

apache-spark apache-spark-sql

вопрос задан: 16 January 2019 15:13

2

ответа

Фильтрация DataFrame по сравнению столбцов даты

Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе отфильтрованного DataFrame сверху выполняются вычисления для вычисления новых столбцов. Упростил мои данные ...

scala apache-spark apache-spark-sql

вопрос задан: 15 January 2019 15:01

2

ответа

Присоединение Spark датафреймов по ключу

Я построил два кадра данных. Как мы можем объединить несколько фреймов данных Spark? Например: PersonDf, ProfileDf с общим столбцом в качестве personId как (ключ). Теперь, как мы можем иметь один Dataframe ...

apache-spark-sql dataframe apache-spark scala

вопрос задан: 6 January 2019 17:59

2

ответа

Переименование столбцов рекурсивно во вложенной структуре в Spark

Я пытаюсь заменить определенные символы во всех столбцах моего DataFrame, у которого много вложенных типов Struct. Я попытался обработать поля схемы рекурсивно и по какой-то причине это только ...

scala apache-spark apache-spark-sql

вопрос задан: 13 July 2018 17:10

2

ответа

Вставка файла фиксированной ширины в Hive с использованием scala spark

У меня есть пример записи файла, подобный этому 2018-01-1509.05.540000000000001000000751111EMAIL@AAA.BB.CL, и вышеупомянутая запись взята из файла с фиксированной длиной, и я хотел разбить на основе длин и когда я ...

scala apache-spark hive apache-spark-sql hiveql

вопрос задан: 13 July 2018 10:58

2

ответа

Заменить Недействительные значения фрейма Spark как «1» с использованием Scala оптимизированным способом

У меня есть исходная искра-dataframe с именем freq as, + --------------- + ---- + ---- + ---- + ---- + | Main_CustomerID | A1 | A2 | A3 | A4 | + --------------- + ---- + ---- + ---- + ---- + | 101 | нуль | 2 | 1 | нуль | | ...

scala apache-spark apache-spark-sql

вопрос задан: 13 July 2018 09:57

2

ответа

как создать новый столбец с датой в качестве параметризованного значения в искровом фрейме? [Дубликат]

Мне нужно вставить новый столбец в мой существующий фреймворк на основе даты, которую я даю в качестве параметра. Например: Оригинальный набор данных - Идентификатор имени 1 Bob 2 Sam Input - val Inputdate = "23-11 -...

apache-spark apache-spark-sql

вопрос задан: 26 December 2017 02:18

2

ответа

создать фрейм данных в цикле foreach apache spark [duplicate]

Я новичок в Spark Scala. Я был бы очень признателен, если бы кто-то помог мне здесь. У меня есть dataframe, называемый df. df.printSchema () root | - tab: string (nullable = true) | - cust: string (nullable = ...

scala apache-spark dataframe apache-spark-sql

вопрос задан: 17 November 2017 20:43

2

ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...

python-3.x apache-spark dataframe pyspark apache-spark-sql

вопрос задан: 1 August 2017 02:56

2

ответа

Count of Dataframe без использования функции count [duplicate]

Поскольку подсчет является дорогостоящей операцией на DataFrames, когда речь идет о больших наборах данных. Я хочу получить итоговые записи no.of из DataFrame без использования функции count, поскольку я использую этот счет только ...

apache-spark apache-spark-sql

вопрос задан: 31 May 2017 11:31

2

ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...

apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 10 September 2016 03:09

2

ответа

Как я могу получить доступ к определенным элементам структуры в блоке данных искровой scala? [Дубликат]

Столбец в моей кадре данных содержит структуры вида [{«annotatorType»: «pos», «begin»: 0, «end»: 0, «result»: «NNP», «metadata»: {"word": " D "}}, {" annotatorType ":" pos "," begin ": 1," end ": 4," result ":" POS "," ...

scala apache-spark apache-spark-sql scala-collections

вопрос задан: 16 July 2016 16:17

2

ответа

как изменить часть «когда» части данных pyspark [duplicate]

Я хочу сгладить один столбец в Dataframe, как показано ниже: df.select (* caculate_gender (). Values ()) def caculate_gender (): return {'gender': ** F.when ((F.col ('gender' ) == 1 | F.col ('gender') == ...

apache-spark dataframe pyspark apache-spark-sql

вопрос задан: 8 June 2016 21:02

2

ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...

apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 25 May 2016 04:59

2

ответа

Исключить дубликаты данных из подмножества столбцов [дубликат]

У меня есть два фрейма данных в Spark, у которых есть много столбцов плюс столбец timestamp. Я хочу исключить дубликаты для всех столбцов, кроме столбца timestamp. Поэтому мой окончательный кадр данных должен быть ...

apache-spark pyspark apache-spark-sql

вопрос задан: 25 February 2016 12:40

2

ответа

Spark jar работает слишком долго [дубликат]

Я пытаюсь получить количество строк в таблице: bank_accounts. Условиями являются «source_system_name = SAP» & amp; period_year = "2017" Для этого я придумал следующий код: object PartitionRetrieval {...

scala apache-spark apache-spark-sql

вопрос задан: 24 August 2015 20:04

2

ответа

Scala - функция вызова параллельно с различными параметрами [duplicate]

У моего приложения Scala есть dataframe, созданный при вызове таблицы hive. После того, как данные потянуты, я создаю набор со списком идентификаторов: val c_Set = inputDF.select ("c_id"). Collect (). Map (_ (0)). ToSet Затем я ...

scala apache-spark collections apache-spark-sql scala-collections

вопрос задан: 11 August 2015 16:52

2

ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

вопрос задан: 11 August 2015 16:52

1

ответ

Как преобразовать в список из многих столбцов данных в Spark?

У меня есть этот пример dataframe: id | A | Б | C | D 1 | NULL | 1 | 1 | NULL 2 | 1 | 1 | 1 | 1 3 | 1 | NULL | NULL | NULL и я хочу изменить на этот формат: newColumn 1 | { "B" ...

scala list apache-spark null apache-spark-sql

вопрос задан: 3 April 2019 07:41

1

ответ

Ошибка при чтении файла CSV в Spark - Scala

Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время сталкиваюсь с индексом массива из связанной исключительной ситуации. Проверка: нет проблем с входным файлом. Все ряды имеют ...

scala csv apache-spark apache-spark-sql

вопрос задан: 28 March 2019 07:15

1

ответ

PySpark: groupBy два столбца с категориальными переменными и сортировать по возрастанию

Я совершенно новый в Spark, и у меня есть проблема с dataframe. Мне нужно сгруппировать уникальные категориальные переменные из двух столбцов (estado, producto), а затем посчитать и отсортировать (asc) уникальные значения ...

group-by pyspark apache-spark-sql

вопрос задан: 19 March 2019 23:56

1

ответ

Как передать List [String] для выбора или selectExpr в искре, когда строка также содержит UDF

У меня есть List [String] как ниже val colList = List (verifyLength ($ "col1", горит (0), горит (0), горит ("RJ"), горит (9)). As ("col1") verifyLength ($ "col2", горит (0), горит (0), горит ("RJ"), горит (16)). as ("col2")) Когда я ...

scala apache-spark apache-spark-sql hadoop2

вопрос задан: 19 March 2019 16:38

1

ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...

java apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 19 March 2019 11:18

1

ответ

Scala Spark столбцы DataFrame в виде карты и сравнить их с помощью Foldleft

Все, чего я хочу достичь, это: Image 1 Итак, здесь вы можете видеть в первом изображении, у меня есть фрейм данных, в котором первые 4 строки имеют правильные значения хеш-функции, хранящиеся в соответствующих столбцах ("col_1_hash" имеет значение хеш-фун

scala apache-spark apache-spark-sql scala-collections

вопрос задан: 12 March 2019 20:31