Я пытаюсь определить статус завершения на разных уровнях детализации. Например, регион является «полным», если все города в этом регионе являются полными. Я поддерживаю государство на самом низком уровне (город) ...
Я пытаюсь настроить кластер с Hadoop (позже я буду использовать Yarn с Spark), но я получаю сообщение об ошибке; user1: masterPC: /opt/hadoop-3.1.2/etc$ jps 25777 Jps user1: masterPC: / opt / hadoop -...
У меня есть 8 подчиненных узлов и 1 мастер-узел. До недавнего времени только подчиненные узлы были частью моей настройки HDFS. Однако, в последнее время, главный узел тоже появился там с диском, который намного меньше. ...
Мое задание Spark считывает данные из хранилища объектов swift, обрабатывает их и записывает обработанные данные в папку назначения в swift. Но после успешного завершения моей искровой работы, где он обработал 33000 ...
Я читаю файлы паркета и сохраняю обработанные результаты в текстовый файл. Некоторые из моих искровых задач завершаются с ошибкой ниже 19/03/07 19:46:41 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: Потерянная задача 13345.0 на этапе 2.0 (TID ...
Я должен обработать огромный фрейм данных, загружать файлы из сервиса по столбцу id этого фрейма. Логика для загрузки, и все изменения подготовлены, но я не уверен, что это лучший способ ...
Я использую Spark JDBC DataFramReader для запроса к Postgres DB, запрос выполняется через PGBouncer, работающий в Transaction Pooling. Со второго выполненного запроса я получаю следующую ошибку: org ....
Я выполняю запрос, подобный select < column > от < mytable > где < partition_key > = < значение > предел 10, и это займет навсегда, чтобы выполнить. Я посмотрел на физический план, и я ...
У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark. Я начал с некоторых самых простых примеров в pyspark, используя .parallelize, ....
Я застрял на этой досадной проблеме и не смог понять, что и почему? Итак, вот формулировка проблемы: у меня есть набор данных Java POJO (A), как в наборе данных < & gt ;. У этого пижона есть пара ...
Я работаю над настройкой, которая включает в себя Apache Spark. Проблема сейчас в том, что не всем пользователям разрешено просматривать один и тот же контент. В моей настройке требуется, чтобы люди использовали сценарии друг друга ...
У меня есть Spark DataFrame с нижними столбцами uuid | some_data "A" | "ABC" "B" | "DEF" Мне нужно преобразовать это во вложенный JSON формата ниже, {"data": [{"attribute": [ { "UUID": "А", "some_data": "ABC"}]}]} ...
В соответствии с этим руководством я пытаюсь выполнить в реальном времени ввод данных Kafka в HBase через PySpark. Кажется, все работает нормально. Я запускаю Кафку Судо /usr/local/kafka/bin/kafka-server-start.sh / ...
У меня есть Array [Row] Я использую класс case, чтобы отобразить его, чтобы получить класс case в RDD MyClass (string, long) sparkSession.sparkContext. распараллелить (row.map (r1 = > MyClass (r1.getString (0) .concat (r1 ....
У Spark есть spark.executor.memory. Насколько я понимаю, даже если моему приложению не нужно то, что определяет spark.executor.memory. Spark по-прежнему выделяет spark.executor.memory каждому исполнителю. Если мой ...
Можно ли привязать имена столбцов заголовков к полям Java-бина, если они не имеют одинакового имени? Какой сериализатор использует Spark под крышкой? Когда я пытаюсь создать набор данных, загружающий CSV-файл ...
Определение DStream из состояний документации, Discretized Stream или DStream является основной абстракцией, предоставляемой Spark Streaming. Он представляет собой непрерывный поток данных, либо ...
Я использую PySpark 2 & amp; пытается получить доступ к данным из Vertica, аутентифицированным Kerberos. Я использую следующий механизм с драйвером JDBC: # PySpark python 3.5 krb_url = "jdbc: vertica: // vertica ....
Я новичок в Spark и использую с ним Java. На JavaRDD < Tuple2 < String, String > Я хотел бы выполнить операцию, в которой Tuple2._1 выступает в качестве ключа, а Tuple2._2 - в качестве значения. Для всех ...
Я должен обработать несколько XML, образец XML ниже <? Xml version = "1.0"? > < Корень > < & Роу GT; < & Информация GT; < & название GT, штат Мичиган < / название > ...
Кто-нибудь нашел хороший док-контейнер, в котором был бы установлен Zeppelin with spark 2.3.1? Я несколько дней пытался собрать zeppelin с нуля, но безуспешно.
Я получаю данные JSON от Кафки как RDD. {id: "A", amount: "100"} {id: "B", amount: "NULL"} Затем с помощью встроенных функций Spark создайте DataFrame spark.read.json (rdd), который даст мне ID | ...
пытаться прочитать локальный каталог файлов через colab, используя функцию wholeTextFiles из pyspark, используя функцию pathlib Path. Я получаю ошибку атрибута, а именно: AttributeError: 'PosixPath' ...
Каждый час я получаю некоторые полезные обновления как новый DataFrame. Я должен уменьшить DataFrames, чтобы дедуплицировать объекты и отслеживать историю обновлений значений. Потому что уменьшить логику слишком сложно, я ...
Я хочу подключить Pyspark и Google Colab. У меня есть информация в mongodb по облаку (mlab). В Google Colab я выполняю этот скрипт:! Apt-get install openjdk-8-jdk-headless -qq > / dev / null! ...
У меня есть обучающий и тестовый набор данных с функциями и несколько тысяч значений customerId. Моя цель состоит в том, чтобы одновременно обучить один двоичный классификатор xgboost для каждого customerId в Spark. Я по сути пытаюсь ...
Я создаю приложение Spark Scala, которое динамически перечисляет все таблицы в базе данных SQL Server, а затем загружает их в Apache Kudu. Я строю динамическую строковую переменную, которая отслеживает основной ...
У меня проблема: я следую этому руководству на официальной документации Livy: [https://livy.incubator.apache.org/docs/latest/programmatic-api.html]. Я создаю класс с именем PiJob для первого ...