У меня есть задания Airflow, которые нормально работают на кластере EMR. что мне нужно, скажем, если у меня есть 4 задания потока воздуха, для которых требуется кластер EMR, скажем, 20 минут для выполнения задачи. почему не мы ...
Если я правильно понимаю, я мог бы рассматривать набор данных spark как список объектов типа T. Как можно объединить два набора данных так, чтобы родительский элемент содержал список дочерних элементов? Но и ребенок будет иметь ...
У меня есть файлы A и B, которые абсолютно одинаковы. Я пытаюсь выполнить внутреннее и внешнее объединение этих двух информационных кадров. Поскольку у меня есть все столбцы как повторяющиеся столбцы, существующие ответы были ...
Я пытаюсь прочитать данные из Greenplum в HDFS с помощью искры. Для этого я использую файл jar: greenplum-spark_2.11-1.6.0.jar Применяя spark.read, как показано ниже: val yearDF = spark.read.format ("io ....
Я новичок в pyspark, у меня есть скрипт, как показано ниже; joinRatings = ratings.join (рейтинги) joinRatings.take (4) и вывод будет; [(196, ((242, 3,0), (242, 3,0))), (196, ((242, 3,0), (393, 4,0))), (...
Я новичок в Scala, пытаюсь использовать Spark для чтения из базы данных mysql. Я сталкиваюсь с исключением из класса, что бы я ни делал. Я пытался подключиться без Spark, используя Squeryl, Scalike и т. Д. Всегда ...
У меня есть датафрейм: | ID | TIMESTAMP | ЦЕННОСТЬ | 1 15:00:01 3 1 17:04:02 2 Я хочу добавить новую запись с помощью Spark-Scala раньше с тем же временем минус 1 секунда, когда значение равно 2. ...
Какой должна быть правильная схема PySpark для следующего списка кортежей? Я хочу применить схему к следующим данным: [('a', 0.0), ('b', 6), ('c', 44), ('d', 107), ('e', 0 ), ('f', 3), ('g', 4) ...
Я использую Spark 2.4.0 с Hadoop 2.7, hadoop-aws 2.7.5 для записи наборов данных в файлы паркета на S3A. Иногда часть файла будет отсутствовать; то есть часть 00003 здесь: > aws s3 ls my-bucket / folder / ...
Следующий код и, следовательно, вопрос о производительности - представьте, конечно, в масштабе: import org.apache.spark.sql.types.StructType val df = sc.parallelize (Seq (("r1", 1, 1), ("r2 ", 6, 4), (" ...
У меня есть датафрейм, который содержит последовательность строк. Я хочу перебирать строки по очереди без изменения порядка. Я попытался ниже код. & GT Scala; val df = Seq (| (0, "Load", "employeeview", "...
Есть несколько вопросов о том, как получить количество разделов n RDD и / или DataFrame: ответы неизменно: rdd.getNumPartitions или df.rdd.getNumPartitions ...
Есть ли лучший способ написать фильтр нескольких условий, которые похожи по своей природе на кадре данных искры. Предполагая, что df является кадром данных искры, имеющим столбцы меток времени t1, t2, t3, t4. val FilterDF = ...
Я пытаюсь получить сумму дохода за последние 3 месяца (за исключением текущей строки) для каждого клиента. Минимальный пример с текущей попыткой в Databricks: cols = ['Client', 'Month', 'Revenue'] ...
Я не понимаю, как я могу объединить 2 таких DataFrame друг с другом. Первый DataFrame хранит информацию о времени запроса пользователя в сервисный центр. Давайте назовем этот DataFrame df1: + ----------- + --...
Я пытаюсь запустить внешний скрипт c ++ на Apache Spark, используя rdd.pipe (). Я не могу найти достаточно информации в документации, поэтому я спрашиваю здесь. Должен ли внешний скрипт быть доступен на всех узлах ...
Чем spark2-submit отличается от spark submit. Мне нужно перенести мой код с spark 1.6 на spark 2.4. Могу ли я по-прежнему использовать spark-submit для запуска моего приложения или это обязательно для перехода на spark2 -...
У меня есть фрейм данных pyspark со следующим форматом времени 20190111-08: 15: 45.275753. Я хочу преобразовать это в формат отметки времени, сохраняя детализацию микросекунды. Тем не менее, кажется, что это ...
После прочтения некоторых технических статей говорят, что датафрейм знает только имя столбца, но не его тип. Однако после личного вызова функции printSchema для dataframe имя ...
У меня есть некоторые значения даты (гггг / мм / дд) на моем фрейме данных. мне нужно найти следующие 7 дней данных. Как я могу сделать это, используя DataFrame в Spark, например: у меня есть данные, как показано ниже 23/01/2018, 23 24/01 / ...
Я хочу получить доступ к s3 из спарка, я не хочу настраивать секретные ключи и ключи доступа, я хочу получить доступ к настройке роли IAM, поэтому я выполнил шаги, указанные в s3-spark, но все же это не так ...
Что я делаю? Я хочу создать службу API с использованием Flask для извлечения данных из одной базы данных, провести некоторый анализ данных и затем загрузить новые данные в отдельную БД. Что случилось? Если я бегу Спарк мимо ...
Ниже я предоставляю свою схему и код, который я использую для чтения разделов в hdfs. Примером раздела может быть этот путь: / home / maria_dev / data / key = ключ / дата = 19 января (и, конечно, внутри этого ...
У меня вопрос ниже файла JSON, где он содержит данные структурного типа для column3. Я могу извлечь строки, но не могу найти минимальное значение column3. Где column3 содержит динамический ...
Я пытаюсь отфильтровать DataFrame, сравнивая два столбца даты, используя Scala и Spark. На основе отфильтрованного DataFrame сверху выполняются вычисления для вычисления новых столбцов. Упростил мои данные ...
Я построил два кадра данных. Как мы можем объединить несколько фреймов данных Spark? Например: PersonDf, ProfileDf с общим столбцом в качестве personId как (ключ). Теперь, как мы можем иметь один Dataframe ...
Я пытаюсь заменить определенные символы во всех столбцах моего DataFrame, у которого много вложенных типов Struct. Я попытался обработать поля схемы рекурсивно и по какой-то причине это только ...
У меня есть столбец списков в блоке данных искры. Как преобразовать массивы в искровой информационный кадр, где каждый элемент в списке является столбцом в кадре данных? Я новичок в scala, и я хочу использовать ...