2
ответа

Создание кластера EMR с использованием запуска Airflow dag. После выполнения задачи EMR будет прервана.

У меня есть задания Airflow, которые нормально работают на кластере EMR. что мне нужно, скажем, если у меня есть 4 задания потока воздуха, для которых требуется кластер EMR, скажем, 20 минут для выполнения задачи. почему не мы ...
вопрос задан: 18 March 2019 18:15
2
ответа

Древовидные / вложенные структуры в Spark из реляционной модели данных

Если я правильно понимаю, я мог бы рассматривать набор данных spark как список объектов типа T. Как можно объединить два набора данных так, чтобы родительский элемент содержал список дочерних элементов? Но и ребенок будет иметь ...
вопрос задан: 17 March 2019 20:03
2
ответа

Как разрешить повторяющиеся имена столбцов при объединении двух фреймов данных в PySpark?

У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...
вопрос задан: 12 March 2019 05:02
2
ответа

невозможно применить протокол gpfdist при работе с искрой

Я пытаюсь прочитать данные из Greenplum в HDFS с помощью искры. Для этого я использую файл jar: greenplum-spark_2.11-1.6.0.jar Применяя spark.read, как показано ниже: val yearDF = spark.read.format ("io ....
вопрос задан: 5 March 2019 17:59
2
ответа

Как узнать значение параметра в функции

Я новичок в pyspark, у меня есть скрипт, как показано ниже; joinRatings = ratings.join (рейтинги) joinRatings.take (4) и вывод будет; [(196, ((242, 3,0), (242, 3,0))), (196, ((242, 3,0), (393, 4,0))), (...
вопрос задан: 5 March 2019 09:59
2
ответа

Драйвер MySql не найден для программы Scala

Я новичок в Scala, пытаюсь использовать Spark для чтения из базы данных mysql. Я сталкиваюсь с исключением из класса, что бы я ни делал. Я пытался подключиться без Spark, используя Squeryl, Scalike и т. Д. Всегда ...
вопрос задан: 4 March 2019 14:47
2
ответа

Добавить новую запись перед другой в Spark

У меня есть датафрейм: | ID | TIMESTAMP | ЦЕННОСТЬ | 1 15:00:01 3 1 17:04:02 2 Я хочу добавить новую запись с помощью Spark-Scala раньше с тем же временем минус 1 секунда, когда значение равно 2. ...
вопрос задан: 4 March 2019 12:26
2
ответа

Как создать схему PySpark для списка кортежей?

Какой должна быть правильная схема PySpark для следующего списка кортежей? Я хочу применить схему к следующим данным: [('a', 0.0), ('b', 6), ('c', 44), ('d', 107), ('e', 0 ), ('f', 3), ('g', 4) ...
вопрос задан: 4 March 2019 06:03
2
ответа

Spark S3A пишет пропускает загрузку части без сбоев

Я использую Spark 2.4.0 с Hadoop 2.7, hadoop-aws 2.7.5 для записи наборов данных в файлы паркета на S3A. Иногда часть файла будет отсутствовать; то есть часть 00003 здесь: > aws s3 ls my-bucket / folder / ...
вопрос задан: 28 February 2019 23:25
2
ответа

Spark: переход в обратном направлении в кадре данных, пока не будет выполнено условие

У меня есть датафрейм в следующем формате: + ---------- + ------- + ---------- + --------- + ----------------------- + --------- + --------- + | rownum | viewid | skillid | parentId | post_timestamp | ...
вопрос задан: 26 February 2019 13:37
2
ответа

val против def производительности на Spark Dataframe

Следующий код и, следовательно, вопрос о производительности - представьте, конечно, в масштабе: import org.apache.spark.sql.types.StructType val df = sc.parallelize (Seq (("r1", 1, 1), ("r2 ", 6, 4), (" ...
вопрос задан: 25 February 2019 02:30
2
ответа

Как читать кадр данных построчно, не меняя порядок? в Spark Scala

У меня есть датафрейм, который содержит последовательность строк. Я хочу перебирать строки по очереди без изменения порядка. Я попытался ниже код. & GT Scala; val df = Seq (| (0, "Load", "employeeview", "...
вопрос задан: 22 February 2019 11:44
2
ответа

Как проверить количество разделов в Spark DataFrame, не неся стоимости .rdd

Есть несколько вопросов о том, как получить количество разделов n RDD и / или DataFrame: ответы неизменно: rdd.getNumPartitions или df.rdd.getNumPartitions ...
вопрос задан: 19 January 2019 20:15
2
ответа

Spark SQL фильтр нескольких похожих полей

Есть ли лучший способ написать фильтр нескольких условий, которые похожи по своей природе на кадре данных искры. Предполагая, что df является кадром данных искры, имеющим столбцы меток времени t1, t2, t3, t4. val FilterDF = ...
вопрос задан: 19 January 2019 06:24
2
ответа

Сумма MySQL по окну, содержащему нулевое значение, возвращает нулевое

Я пытаюсь получить сумму дохода за последние 3 месяца (за исключением текущей строки) для каждого клиента. Минимальный пример с текущей попыткой в ​​Databricks: cols = ['Client', 'Month', 'Revenue'] ...
вопрос задан: 18 January 2019 16:50
2
ответа

Как объединить два DataFrame с объединенными столбцами в Spark?

Я не понимаю, как я могу объединить 2 таких DataFrame друг с другом. Первый DataFrame хранит информацию о времени запроса пользователя в сервисный центр. Давайте назовем этот DataFrame df1: + ----------- + --...
вопрос задан: 18 January 2019 13:34
2
ответа

Как рассчитать среднее значение в одной группе?

У меня есть такой фрейм данных: + ----- + --------- + --------- + | Категория | Amt | цена | + ----- + --------- + --------- + | | 100 | 1 | | | 180 | 2 | | | 250 | 3 | | ...
вопрос задан: 18 January 2019 09:20
2
ответа

Вопрос об операторе rdd.pipe () на Apache Spark

Я пытаюсь запустить внешний скрипт c ++ на Apache Spark, используя rdd.pipe (). Я не могу найти достаточно информации в документации, поэтому я спрашиваю здесь. Должен ли внешний скрипт быть доступен на всех узлах ...
вопрос задан: 17 January 2019 15:51
2
ответа

spark2-submit отличается от spark-submit

Чем spark2-submit отличается от spark submit. Мне нужно перенести мой код с spark 1.6 на spark 2.4. Могу ли я по-прежнему использовать spark-submit для запуска моего приложения или это обязательно для перехода на spark2 -...
вопрос задан: 17 January 2019 14:23
2
ответа

Работа с микросекундными метками времени в PySpark

У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...
вопрос задан: 17 January 2019 10:49
2
ответа

Знает ли фрейм данных тип столбца?

После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не его тип. Однако после личного вызова функции printSchema для dataframe имя ...
вопрос задан: 17 January 2019 01:28
2
ответа

как добавить значение в поле даты, используя фрейм данных в спарк

У меня есть некоторые значения даты (гггг / мм / дд) на моем фрейме данных. мне нужно найти следующие 7 дней данных. Как я могу сделать это, используя DataFrame в Spark, например: у меня есть данные, как показано ниже 23/01/2018, 23 24/01 / ...
вопрос задан: 16 January 2019 23:00
2
ответа

AWS доступ к S3 от искры с использованием роли IAM

Я хочу получить доступ к s3 из спарка, я не хочу настраивать секретные ключи и ключи доступа, я хочу получить доступ к настройке роли IAM, поэтому я выполнил шаги, указанные в s3-spark, но все же это не так ...
вопрос задан: 16 January 2019 18:31
2
ответа

Использование Spark с Flask с JDBC

Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы данных, провести некоторый анализ данных и затем загрузить новые данные в отдельную БД. Что случилось? Если я бегу Спарк мимо ...
вопрос задан: 16 January 2019 16:53
2
ответа

Почему Spark не может правильно загружать столбцы из HDFS? [Дубликат]

Ниже я предоставляю свою схему и код, который я использую для чтения разделов в hdfs. Примером раздела может быть этот путь: / home / maria_dev / data / key = ключ / дата = 19 января (и, конечно, внутри этого ...
вопрос задан: 16 January 2019 15:13
2
ответа

минимальное значение столбца типа структуры в кадре данных

У меня вопрос ниже файла JSON, где он содержит данные структурного типа для column3. Я могу извлечь строки, но не могу найти минимальное значение column3. Где column3 содержит динамический ...
вопрос задан: 16 January 2019 12:02
2
ответа

Фильтрация DataFrame по сравнению столбцов даты

Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе отфильтрованного DataFrame сверху выполняются вычисления для вычисления новых столбцов. Упростил мои данные ...
вопрос задан: 15 January 2019 15:01
2
ответа

Присоединение Spark датафреймов по ключу

Я построил два кадра данных. Как мы можем объединить несколько фреймов данных Spark? Например: PersonDf, ProfileDf с общим столбцом в качестве personId как (ключ). Теперь, как мы можем иметь один Dataframe ...
вопрос задан: 6 January 2019 17:59
2
ответа

Переименование столбцов рекурсивно во вложенной структуре в Spark

Я пытаюсь заменить определенные символы во всех столбцах моего DataFrame, у которого много вложенных типов Struct. Я попытался обработать поля схемы рекурсивно и по какой-то причине это только ...
вопрос задан: 13 July 2018 17:10
2
ответа

Преобразование списка списка в Dataframe

У меня есть столбец списков в блоке данных искры. Как преобразовать массивы в искровой информационный кадр, где каждый элемент в списке является столбцом в кадре данных? Я новичок в scala, и я хочу использовать ...
вопрос задан: 13 July 2018 16:06