2
ответа

Spark SQL фильтр нескольких похожих полей

Есть ли лучший способ написать фильтр нескольких условий, которые похожи по своей природе на кадре данных искры. Предполагая, что df является кадром данных искры, имеющим столбцы меток времени t1, t2, t3, t4. val FilterDF = ...
вопрос задан: 19 January 2019 06:24
2
ответа

Сумма MySQL по окну, содержащему нулевое значение, возвращает нулевое

Я пытаюсь получить сумму дохода за последние 3 месяца (за исключением текущей строки) для каждого клиента. Минимальный пример с текущей попыткой в ​​Databricks: cols = ['Client', 'Month', 'Revenue'] ...
вопрос задан: 18 January 2019 16:50
2
ответа

Как объединить два DataFrame с объединенными столбцами в Spark?

Я не понимаю, как я могу объединить 2 таких DataFrame друг с другом. Первый DataFrame хранит информацию о времени запроса пользователя в сервисный центр. Давайте назовем этот DataFrame df1: + ----------- + --...
вопрос задан: 18 January 2019 13:34
2
ответа

Как рассчитать среднее значение в одной группе?

У меня есть такой фрейм данных: + ----- + --------- + --------- + | Категория | Amt | цена | + ----- + --------- + --------- + | | 100 | 1 | | | 180 | 2 | | | 250 | 3 | | ...
вопрос задан: 18 January 2019 09:20
2
ответа

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...
вопрос задан: 17 January 2019 10:49
2
ответа

Знает ли фрейм данных тип столбца?

После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не его тип. Однако после личного вызова функции printSchema для dataframe имя ...
вопрос задан: 17 January 2019 01:28
2
ответа

Почему Spark не может правильно загружать столбцы из HDFS? [Дубликат]

Ниже я предоставляю свою схему и код, который я использую для чтения разделов в hdfs. Примером раздела может быть этот путь: / home / maria_dev / data / key = ключ / дата = 19 января (и, конечно, внутри этого ...
вопрос задан: 16 January 2019 15:13
2
ответа

Фильтрация DataFrame по сравнению столбцов даты

Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе отфильтрованного DataFrame сверху выполняются вычисления для вычисления новых столбцов. Упростил мои данные ...
вопрос задан: 15 January 2019 15:01
2
ответа

Присоединение Spark датафреймов по ключу

Я построил два кадра данных. Как мы можем объединить несколько фреймов данных Spark? Например: PersonDf, ProfileDf с общим столбцом в качестве personId как (ключ). Теперь, как мы можем иметь один Dataframe ...
вопрос задан: 6 January 2019 17:59
2
ответа

Переименование столбцов рекурсивно во вложенной структуре в Spark

Я пытаюсь заменить определенные символы во всех столбцах моего DataFrame, у которого много вложенных типов Struct. Я попытался обработать поля схемы рекурсивно и по какой-то причине это только ...
вопрос задан: 13 July 2018 17:10
2
ответа

Вставка файла фиксированной ширины в Hive с использованием scala spark

У меня есть пример записи файла, подобный этому 2018-01-1509.05.540000000000001000000751111EMAIL@AAA.BB.CL, и вышеупомянутая запись взята из файла с фиксированной длиной, и я хотел разбить на основе длин и когда я ...
вопрос задан: 13 July 2018 10:58
2
ответа

Заменить Недействительные значения фрейма Spark как «1» с использованием Scala оптимизированным способом

У меня есть исходная искра-dataframe с именем freq as, + --------------- + ---- + ---- + ---- + ---- + | Main_CustomerID | A1 | A2 | A3 | A4 | + --------------- + ---- + ---- + ---- + ---- + | 101 | нуль | 2 | 1 | нуль | | ...
вопрос задан: 13 July 2018 09:57
2
ответа

как создать новый столбец с датой в качестве параметризованного значения в искровом фрейме? [Дубликат]

Мне нужно вставить новый столбец в мой существующий фреймворк на основе даты, которую я даю в качестве параметра. Например: Оригинальный набор данных - Идентификатор имени 1 Bob 2 Sam Input - val Inputdate = "23-11 -...
вопрос задан: 26 December 2017 02:18
2
ответа

создать фрейм данных в цикле foreach apache spark [duplicate]

Я новичок в Spark Scala. Я был бы очень признателен, если бы кто-то помог мне здесь. У меня есть dataframe, называемый df. df.printSchema () root | - tab: string (nullable = true) | - cust: string (nullable = ...
вопрос задан: 17 November 2017 20:43
2
ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...
вопрос задан: 1 August 2017 02:56
2
ответа

Count of Dataframe без использования функции count [duplicate]

Поскольку подсчет является дорогостоящей операцией на DataFrames, когда речь идет о больших наборах данных. Я хочу получить итоговые записи no.of из DataFrame без использования функции count, поскольку я использую этот счет только ...
вопрос задан: 31 May 2017 11:31
2
ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...
вопрос задан: 10 September 2016 03:09
2
ответа

Как я могу получить доступ к определенным элементам структуры в блоке данных искровой scala? [Дубликат]

Столбец в моей кадре данных содержит структуры вида [{«annotatorType»: «pos», «begin»: 0, «end»: 0, «result»: «NNP», «metadata»: {"word": " D "}}, {" annotatorType ":" pos "," begin ": 1," end ": 4," result ":" POS "," ...
вопрос задан: 16 July 2016 16:17
2
ответа

как изменить часть «когда» части данных pyspark [duplicate]

Я хочу сгладить один столбец в Dataframe, как показано ниже: df.select (* caculate_gender (). Values ​​()) def caculate_gender (): return {'gender': ** F.when ((F.col ('gender' ) == 1 | F.col ('gender') == ...
вопрос задан: 8 June 2016 21:02
2
ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...
вопрос задан: 25 May 2016 04:59
2
ответа

Исключить дубликаты данных из подмножества столбцов [дубликат]

У меня есть два фрейма данных в Spark, у которых есть много столбцов плюс столбец timestamp. Я хочу исключить дубликаты для всех столбцов, кроме столбца timestamp. Поэтому мой окончательный кадр данных должен быть ...
вопрос задан: 25 February 2016 12:40
2
ответа

Spark jar работает слишком долго [дубликат]

Я пытаюсь получить количество строк в таблице: bank_accounts. Условиями являются «source_system_name = SAP» & amp; period_year = "2017" Для этого я придумал следующий код: object PartitionRetrieval {...
вопрос задан: 24 August 2015 20:04
2
ответа

Scala - функция вызова параллельно с различными параметрами [duplicate]

У моего приложения Scala есть dataframe, созданный при вызове таблицы hive. После того, как данные потянуты, я создаю набор со списком идентификаторов: val c_Set = inputDF.select ("c_id"). Collect (). Map (_ (0)). ToSet Затем я ...
вопрос задан: 11 August 2015 16:52
2
ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...
вопрос задан: 11 August 2015 16:52
1
ответ

Как преобразовать в список из многих столбцов данных в Spark?

У меня есть этот пример dataframe: id | A | Б | C | D 1 | NULL | 1 | 1 | NULL 2 | 1 | 1 | 1 | 1 3 | 1 | NULL | NULL | NULL и я хочу изменить на этот формат: newColumn 1 | { "B" ...
вопрос задан: 3 April 2019 07:41
1
ответ

Ошибка при чтении файла CSV в Spark - Scala

Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время сталкиваюсь с индексом массива из связанной исключительной ситуации. Проверка: нет проблем с входным файлом. Все ряды имеют ...
вопрос задан: 28 March 2019 07:15
1
ответ

PySpark: groupBy два столбца с категориальными переменными и сортировать по возрастанию

Я совершенно новый в Spark, и у меня есть проблема с dataframe. Мне нужно сгруппировать уникальные категориальные переменные из двух столбцов (estado, producto), а затем посчитать и отсортировать (asc) уникальные значения ...
вопрос задан: 19 March 2019 23:56
1
ответ

Как передать List [String] для выбора или selectExpr в искре, когда строка также содержит UDF

У меня есть List [String] как ниже val colList = List (verifyLength ($ "col1", горит (0), горит (0), горит ("RJ"), горит (9)). As ("col1") verifyLength ($ "col2", горит (0), горит (0), горит ("RJ"), горит (16)). as ("col2")) Когда я ...
вопрос задан: 19 March 2019 16:38
1
ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...
вопрос задан: 19 March 2019 11:18
1
ответ

Scala Spark столбцы DataFrame в виде карты и сравнить их с помощью Foldleft

Все, чего я хочу достичь, это: Image 1 Итак, здесь вы можете видеть в первом изображении, у меня есть фрейм данных, в котором первые 4 строки имеют правильные значения хеш-функции, хранящиеся в соответствующих столбцах ("col_1_hash" имеет значение хеш-фун
вопрос задан: 12 March 2019 20:31