1
ответ

Как обеспечить локальность данных в источнике данных Spark v2?

Я реализовал источник данных Spark (v2) и не нашел способа обеспечить локальность данных. В источнике данных v1 может быть реализован метод getPreferredLocations, что эквивалентно источнику данных v2?
вопрос задан: 6 March 2019 08:25
1
ответ

Разбор SparkSQL - SqlBase.g4 не распознает строчные ключевые слова и идентификаторы

Я скачал SqlBase.g4 и использую инструмент antlr v4 для сборки лексера и парсера. Однако, когда я запускаю анализатор для очень простого запроса: select * from table1, он не может распознать строчные буквы ...
вопрос задан: 5 March 2019 12:55
1
ответ

встроенная функция spark-sql dayofmonth, возвращающая странные результаты

По какой-то странной причине, функция dayofmonth в искре, кажется, возвращает странное значение в течение 1500 лет или меньше. Ниже приведены полученные результаты -> scala > spark.sql ("ВЫБРАТЬ ...
вопрос задан: 5 March 2019 09:33
1
ответ

Влияет ли количество разделов всех объединяемых таблиц на максимальных исполнителей?

У меня есть Spark SQL как select ... from A join B на A.k = B.k join C на A.k = C.k A имеет 2k разделов; B имеет 7 разделов; пока С не разделен. Я установил максимальный динамический номер исполнителя на ...
вопрос задан: 4 March 2019 08:16
1
ответ

Обновление столбца в таблице Spark с использованием SQL

Я хотел бы добавить столбец в таблицу, а затем заполнить его значениями из другой таблицы. Ниже приведен упрощенный вариант моей проблемы. CREATE TABLE table_1 (id INT, DECIMAL (19,2)) ВСТАВИТЬ ...
вопрос задан: 28 February 2019 22:07
1
ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

Предположим, что в pyspark у меня есть фрейм данных со столбцами, названными 'a1', 'a2', 'a3' ... 'a99'. Как применить операцию к каждому из них, чтобы динамически создавать новые столбцы с новыми именами? Например, чтобы узнать ...
вопрос задан: 28 February 2019 18:20
1
ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, и в рамках моей работы по сбору данных я должен использовать метод insertinto для загрузки данных в таблицы кустов. Но есть ошибка с версией Spark 2.1, вставьте в ...
вопрос задан: 26 February 2019 16:41
1
ответ

Spark читает несколько файлов: двойные кавычки заменены на% 22

У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились. Поэтому я не могу применить регулярное выражение для чтения шаблона. Я знаю, какие это файлы, и я мог бы перечислить их. Но когда я формирую ...
вопрос задан: 26 February 2019 11:14
1
ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

значения = [(u '[23,4,77,890,455]', 10), (u '[11,2,50,1,11]', 20), (u '[10,5,1,22,04 ] ', 30)] df = sqlContext.createDataFrame (values, [' list ',' A ']) df.show () + ----------------- + - - + | list_1 | | + -----...
вопрос задан: 26 February 2019 10:31
1
ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...
вопрос задан: 23 February 2019 18:32
1
ответ

Разница между callUDF и udf.register в искре

У меня есть udf как часть импорта, и я использую его в своем искровом коде. $ name ...
вопрос задан: 22 February 2019 16:59
1
ответ

Spark SQL игнорирует значение фильтра динамического раздела

Встала проблема с Spark 2.4 на EMR 5.20 в AWS. У меня есть строковый столбец в качестве раздела, который имеет значения даты. Моя цель - сделать так, чтобы максимальное значение этого столбца упоминалось как фильтр. ...
вопрос задан: 20 February 2019 21:22
1
ответ

Как изменить & ldquo; организовать & rdquo; в спарклер?

Вот мой пример my_df < - data.frame (letters_col = sample (letters, 50, replace = TRUE), numbers_col = rnorm (100), stringsAsFactors = FALSE)% >% ...
вопрос задан: 1 February 2019 03:19
1
ответ

DataFrame и DataSet - преобразование значений в < k, v > пара

Образец ввода (черный текст) и вывод (красный текст) У меня есть DataFrame (один в черном), как я могу преобразовать его в один, как в красном? (номер столбца, значение) [Изображение прилагается] val df = ...
вопрос задан: 20 January 2019 05:42
1
ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. из pyspark.sql import Row из pyspark.sql.types import StringType, DoubleType, StructType, StructField # данные данных о продажах фруктов = [...
вопрос задан: 19 January 2019 21:22
1
ответ

Объединение дубликатов столбцов в seq json hdfs файлах в spark

Я читаю seq json-файл из HDFS с использованием spark следующим образом: val data = spark.read.json (spark.sparkContext.sequenceFile [String, String] ("/ prod / data / class1 / 20190114/2019011413 / class2 / part- *").карта{ ...
вопрос задан: 19 January 2019 19:52
1
ответ

читать файлы с текущей даты минус 90 дней в спарке

Я читаю все один за другим файлы, которые хранятся в структуре каталогов как YY = 18 / MM = 12 / DD = 10, и мне нужно читать только текущую дату минус 60 дней. Файлы будут создаваться на каждый день и ...
вопрос задан: 18 January 2019 11:33
1
ответ

Используйте лаг в spark sql в регистре

У меня есть таблица, как показано ниже. Я хочу добавить столбец seq_group справа на основе значения пребывания в каждой группе элементов. Для каждой группы элементов seq_group начинается с 0 и когда seq_group > 8600 ...
вопрос задан: 18 January 2019 09:08
1
ответ

Как работает отображение на rdd в pyspark?

Я изучал pyspark, когда столкнулся с этим. из pyspark.sql import Row df = spark.createDataFrame ([Row ([0,45,63,0,0,0,0]), Row ([0,0,0,85,0,69,0]) ...
вопрос задан: 18 January 2019 06:32
1
ответ

Spark с использованием рекурсивного класса case

У меня есть рекурсивная структура данных. Spark выдает эту ошибку: Исключение в потоке "main" java.lang.UnsupportedOperationException: не может иметь циклические ссылки в классе, но получил циклическое ...
вопрос задан: 18 January 2019 04:12
1
ответ

Эффективное объединение большого количества pyspark DataFrames

Я пытаюсь выполнить объединение тысяч кадров данных в списке Python. Я использую два подхода, которые я нашел. Первый с помощью for loop union, а второй использует functools ....
вопрос задан: 18 January 2019 01:05
1
ответ

Случайно получая java.lang.ClassCastException в быстрой работе

Быстрое задание, написанное на Scala, прерывается с исключением: java.lang.ClassCastException: com ..... $ Class1 не может быть приведен к com ..... $ Class1. Class1 - это пользовательский класс, который хранится в RDD. Интересная вещь ...
вопрос задан: 17 January 2019 19:16
1
ответ

Конвертировать HiveQL в Spark Scala

Я хочу преобразовать запрос HiveQL с оконной функцией в запрос Scala Spark ... но постоянно получаю одно и то же исключение Контекст проблемы: mytable состоит из полей категории и продукта. Мне нужно ...
вопрос задан: 17 January 2019 19:14
1
ответ

При записи в hdfs, как перезаписать только необходимые папки?

Итак, у меня есть эта папка, давайте назовем ее / data. И в нем есть разделы, например: / data / partition1, / data / partition2. Я читаю новые данные из kafka, и представьте, что мне нужно только обновить / data / partition2. Я ...
вопрос задан: 17 January 2019 17:20
1
ответ

Как мне взорвать набор данных с помощью flatmap? [Дубликат]

У меня есть последовательность класса case, который имеет строку, за которой следует последовательность строк. Как отобразить последовательность строк (второй столбец) без потери первого столбца? Я попробовал это: ...
вопрос задан: 17 January 2019 16:24
1
ответ

Выберите значения из кадра данных в искре

Я хочу выбрать конкретные значения с помощью цикла. У меня есть фрейм данных с именем df с большим количеством столбцов, и я хочу выбрать значения, которые меньше 1 и NULL. Есть ли эффективный способ получить ...
вопрос задан: 17 January 2019 14:09
1
ответ

Создайте DataFrame, используя искру из файла Excel, который находится в пути к серверу

Я пытаюсь загрузить файл xls / xlsx с сервера с помощью этого кода https://github.com/crealytics/spark-excel SparkConf sparkConf = new SparkConf (); SparkContext sparkContext = null; sparkContext = ...
вопрос задан: 17 January 2019 12:23
1
ответ

Невозможно проглотить DF для эластичного поиска

Я читаю паркетный файл в spark-scala и занимаюсь вычислениями и фильтрацией. Я хочу проглотить полученный фрейм данных вasticsearch. Я пробовал следующие https: //www.elastic.co/guide/en / ...
вопрос задан: 17 January 2019 11:11
1
ответ

Как проверить, включен ли необходимый ключ в JSON-искру Scala Dataframe

У меня есть датафрейм, как показано ниже. ID, details_Json 1 {"name": "Anne", "Age": "12", "country": "Denmark"} 2 {"name": "Zen", "Age": "24"} 3 {" имя ":" Фред " "Возраст": "20", "страна":" ...
вопрос задан: 17 January 2019 10:15
1
ответ

Spark 2.2 dataframe [scala]

OrderNo Status1 Status2 Status3 123 Завершено Ожидание Ожидание 456 Отклонено Завершено Завершено 789 Ожидание В процессе Завершено Выше приведена таблица, которая является ...
вопрос задан: 17 January 2019 09:38