0
ответов

Можно ли вернуть несколько строк из пользовательской статистической функции Spark (UDAF)?

Можно ли возвращать несколько строк из UDAF Spark таким же образом, как flatMapGroups позволяет возвращать несколько строк после выполнения groupByKey для набора данных? Высокая производительность Spark упоминает ...
вопрос задан: 18 January 2019 04:42
0
ответов

Как сгруппировать по похожему элементу в списках

В моей программе я хочу выполнить операцию groupBy над фреймом данных, используя общий элемент в списке. Например, следующий фрейм данных: visitorId | trackingIds | emailIds + ----------- + --...
вопрос задан: 17 January 2019 18:17
0
ответов

Spark: добавить столбец Option в DataFrame

Я хотел бы добавить столбец Option в DataFrame, поэтому я написал следующий код: val newDataFrame = dataFrame.withColumn ("newColumn", lit (Some (true))), это не работает с java.lang.RuntimeException: Unsupported .. ,
вопрос задан: 17 January 2019 16:40
0
ответов

Scala Spark - создание GroupBy с использованием Array [String] для сопоставления записей, если они содержатся в другом элементе записи в виде списка

В моей программе Scala я сталкиваюсь с проблемой объединения результатов нескольких уровней GroupBy. Набор данных, который я использую, довольно большой. В качестве небольшого примера у меня есть датафрейм, который выглядит как ...
вопрос задан: 17 January 2019 12:55
0
ответов

как это сделать в spark, то есть повторять группы и сохранять каждую группу как файл одновременно?

У меня есть огромные данные, которые накапливаются каждый год ежеквартально. Эти данные немного искажаются, когда я пытаюсь собрать все данные в один фрейм данных, разделив их на ("год", "квартал"), это ...
вопрос задан: 17 January 2019 12:23
0
ответов

Планировщик запросов Spark генерирует разные запросы случайным образом

У меня есть искровое задание, которое получает данные из таблицы в SQL Server и генерирует предложение where для предикатов, чтобы передать функцию jdbc в таблицу назначения, которая находится в MySQL. Я использую Spark 2.3 ...
вопрос задан: 17 January 2019 10:22
0
ответов

Как истечь состояние dropDuplicates в структурированной потоковой передаче с помощью оконной функции в Java, чтобы избежать OOM?

Я использую метод dropDuplicates () в Spark Structured Streaming 2.2.1 и мне нужно рабочее решение для использования withWatermark (), чтобы уменьшить состояние. Моя первая попытка достичь этого была ...
вопрос задан: 17 January 2019 07:42
0
ответов

получить тип данных столбца, используя pyspark

Мы читаем данные из коллекции MongoDB. Столбец коллекции имеет два разных значения (например: (bson.Int64, int) (int, float)). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в некоторых столбцах ...
вопрос задан: 16 January 2019 12:37
0
ответов

Есть ли лучший способ написать несколько соединений при разных условиях в spark-sql?

У меня есть оригинальный фрейм данных с несколькими столбцами, для упрощения они являются product_id, category_id, product_type. Теперь я хочу присоединить информацию о product_quality_level к этому фрейму данных, но информация поступает из ...
вопрос задан: 16 January 2019 12:16
0
ответов

Как мне обновить только определенные разделы в спарк?

У меня есть разделенный фрейм данных, сохраненный в формате hdf. Я должен периодически загружать новые данные из темы кафки и обновлять данные hdfs. Данные просты: это просто количество полученных твитов ...
вопрос задан: 15 January 2019 15:46
0
ответов

Spark Dataframes UPSERT для таблицы Postgres

Я использую Apache Spark DataFrames, чтобы соединить два источника данных и получить результат как другой DataFrame. Я хочу записать результат в другую таблицу Postgres. Я вижу эту опцию: myDataFrame.write.jdbc (...
вопрос задан: 14 January 2019 00:34
0
ответов

Получение определенного поля из выбранной строки в Pyspark DataFrame

У меня есть Spark DataFrame, построенный через pyspark из файла JSON, как sc = SparkContext () sqlc = SQLContext (sc) users_df = sqlc.read.json ('users.json') Теперь я хочу получить доступ к данным selected_user, где. ..
вопрос задан: 13 January 2019 20:31
0
ответов

Как передать дополнительные параметры в пользовательские функции в Spark SQL?

Я хочу проанализировать столбцы даты в DataFrame, и для каждого столбца даты разрешение для даты может измениться (т.е. 2011/01/10 => 2011/01, если для разрешения установлено значение "Месяц"). Я написал ...
вопрос задан: 11 January 2019 12:28
0
ответов

Почему Spark считает, что это кросс / декартово соединение

Я хочу объединить данные дважды, как показано ниже: rdd1 = spark.createDataFrame ([(1, 'a'), (2, 'b'), (3, 'c')], ['idx', 'val'] ) rdd2 = spark.createDataFrame ([(1, 2, 1), (1, 3, 0), (2, 3, 1)], ['key1', 'key2', 'val'] ...
вопрос задан: 7 January 2019 17:58
0
ответов

Как создать DataFrame из текстового файла в Spark

У меня есть текстовый файл в HDFS, и я хочу преобразовать его в фрейм данных в Spark. Я использую Spark Context для загрузки файла, а затем пытаюсь сгенерировать отдельные столбцы из этого файла. val myFile = ...
вопрос задан: 7 January 2019 17:34
0
ответов

Агрегирование нескольких столбцов с пользовательской функцией в Spark

Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): Джон | помидор | 1 ....
вопрос задан: 7 January 2019 15:36
0
ответов

Как рассчитать разницу дат в писпарке?

У меня есть такие данные: df = sqlContext.createDataFrame ([('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ( '1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), (...
вопрос задан: 7 January 2019 05:57
0
ответов

Как разбить Вектор на столбцы - используя PySpark

Контекст: у меня есть DataFrame с 2 столбцами: слово и вектор. Где тип столбца "вектор" является VectorUDT. Пример: слово | вектор утверждать | [435,323,324,212 ...] И я хочу получить это: ...
вопрос задан: 6 January 2019 21:59
0
ответов

Spark добавить новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в исходном кадре данных Spark (Pyspark): + - + --- + | id | num | + - + --- + | 4 | 9.0 | + - + --- + | 3 | 7.0 | + - + --- + | 2 | 3.0 | + - + --- + | 1 | 5.0 | + - + --- + В результате ...
вопрос задан: 6 January 2019 15:00
0
ответов

Определение UDF, который принимает массив объектов в Spark DataFrame?

При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны явно. В моем случае мне нужно ...
вопрос задан: 17 December 2018 10:33
0
ответов

Неисправность портирования искрового кода Scala для PySpark

Я нашел пример кодирования строк Spark DataFrame для Avro в Scala. кредит: Spark Dataframe пишите на тему кафки в формате avro? Мои приложения написаны на Python, и у меня есть ...
вопрос задан: 13 July 2018 15:29
0
ответов

Включение нулевых значений в Apache Spark Join

Я хотел бы включить нулевые значения в соединение Apache Spark. Spark по умолчанию не содержит строк с нулем. Вот поведение Spark по умолчанию. val numbersDf = Seq (("123"), ("456"), (ноль), ...
вопрос задан: 15 June 2018 22:31
0
ответов

Как избежать дублирования столбцов после объединения?

У меня есть два кадра данных со следующими столбцами: df1.columns // Array (ts, id, X1, X2) и df2.columns // Array (ts, id, Y1, Y2) После того, как я сделаю val df_combined = df1.join ( df2, seq (ts, id)) я заканчиваю ...
вопрос задан: 11 May 2018 09:35
0
ответов

В чем разница между операторами cube, rollup и groupBy?

Вопрос в значительной степени в названии. Я не могу найти подробную документацию относительно различий. Я заметил разницу, потому что при обмене вызовами функций cube и groupBy я получаю ...
вопрос задан: 21 January 2018 16:16
0
ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...
вопрос задан: 22 June 2017 21:02
0
ответов

Как сохранить DataFrame непосредственно в Hive?

Можно ли сохранить DataFrame в Spark непосредственно в Hive. Я попытался с преобразованием DataFrame в Rdd, а затем сохранить в виде текстового файла и затем загрузить в куст. Но мне интересно, могу ли я напрямую ...
вопрос задан: 25 December 2016 21:26
0
ответов

Как конвертировать DataFrame в RDD в Scala?

Может кто-нибудь поделиться, как можно конвертировать данные в RDD?
вопрос задан: 2 November 2016 09:46
0
ответов

Конвертировать строку pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy, и я пытаюсь преобразовать его в столбец даты. Я пытался: df.select (to_date (df.STRING_COLUMN) .alias ('...
вопрос задан: 28 June 2016 15:45
0
ответов

Spark - извлечение одного значения из DataFrame

У меня есть запрос Spark DataFrame, который гарантированно возвращает один столбец с одним значением Int. Каков наилучший способ извлечь это значение как Int из результирующего DataFrame?
вопрос задан: 23 September 2015 16:53
0
ответов

Рассчитать стандартное отклонение сгруппированных данных в Spark DataFrame

У меня есть пользовательские журналы, которые я взял из CSV и преобразовал в DataFrame, чтобы использовать возможности запросов SparkSQL. Один пользователь будет создавать множество записей в час, и я хотел бы ...
вопрос задан: 3 August 2015 14:28