0
ответов

Добавление столбца count в мою последовательность в Scala

Учитывая приведенный ниже код, как мне добавить столбец подсчета? (например .count ("*"). as ("count")) Окончательный вывод выглядит примерно так: + --- + ------ + ------ + ----- ------------------------ + ------...
вопрос задан: 18 March 2019 02:15
0
ответов

Преобразование с сохранением состояния на одном кадре данных в потоковой передаче Spark

Я пытаюсь определить статус завершения на разных уровнях детализации. Например, регион является «полным», если все города в этом регионе являются полными. Я поддерживаю государство на самом низком уровне (город) ...
вопрос задан: 13 March 2019 17:39
0
ответов

Не удается подключиться к ResourceManager

Я пытаюсь настроить кластер с Hadoop (позже я буду использовать Yarn с Spark), но я получаю сообщение об ошибке; user1: masterPC: /opt/hadoop-3.1.2/etc$ jps 25777 Jps user1: masterPC: / opt / hadoop -...
вопрос задан: 11 March 2019 14:21
0
ответов

Hadoop - главный узел дисковой части кластера хранения внезапно. Как мне это убрать?

У меня есть 8 подчиненных узлов и 1 мастер-узел. До недавнего времени только подчиненные узлы были частью моей настройки HDFS. Однако, в последнее время, главный узел тоже появился там с диском, который намного меньше. ...
вопрос задан: 11 March 2019 13:58
0
ответов

Spark job - пропущенные разделы после успешного завершения

Мое задание Spark считывает данные из хранилища объектов swift, обрабатывает их и записывает обработанные данные в папку назначения в swift. Но после успешного завершения моей искровой работы, где он обработал 33000 ...
вопрос задан: 10 March 2019 03:12
0
ответов

Искра: Задача не удалось при записи строк

Я читаю файлы паркета и сохраняю обработанные результаты в текстовый файл. Некоторые из моих искровых задач завершаются с ошибкой ниже 19/03/07 19:46:41 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: Потерянная задача 13345.0 на этапе 2.0 (TID ...
вопрос задан: 7 March 2019 21:51
0
ответов

Scala: обрабатывать фрейм данных, пока значение в столбце соответствует условию

Я должен обработать огромный фрейм данных, загружать файлы из сервиса по столбцу id этого фрейма. Логика для загрузки, и все изменения подготовлены, но я не уверен, что это лучший способ ...
вопрос задан: 7 March 2019 11:42
0
ответов

Spark JDBC и пул транзакций в PGBouncer

Я использую Spark JDBC DataFramReader для запроса к Postgres DB, запрос выполняется через PGBouncer, работающий в Transaction Pooling. Со второго выполненного запроса я получаю следующую ошибку: org ....
вопрос задан: 7 March 2019 09:08
0
ответов

Выберите, где ключ раздела слишком медленный с лимитом на Spark Sql

Я выполняю запрос, подобный select < column > от < mytable > где < partition_key > = < значение > предел 10, и это займет навсегда, чтобы выполнить. Я посмотрел на физический план, и я ...
вопрос задан: 6 March 2019 08:35
0
ответов

Ускорит ли Spark алгоритмы передачи данных?

У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark. Я начал с некоторых самых простых примеров в pyspark, используя .parallelize, ....
вопрос задан: 5 March 2019 17:54
0
ответов

Spark UDAF пользовательского типа объекта в Java, вызывающий ошибку соответствия Scala

Я застрял на этой досадной проблеме и не смог понять, что и почему? Итак, вот формулировка проблемы: у меня есть набор данных Java POJO (A), как в наборе данных < & gt ;. У этого пижона есть пара ...
вопрос задан: 5 March 2019 17:34
0
ответов

Как установить разрешения в Apache Spark

Я работаю над настройкой, которая включает в себя Apache Spark. Проблема сейчас в том, что не всем пользователям разрешено просматривать один и тот же контент. В моей настройке требуется, чтобы люди использовали сценарии друг друга ...
вопрос задан: 5 March 2019 12:07
0
ответов

Spark JSON Array

У меня есть Spark DataFrame с нижними столбцами uuid | some_data "A" | "ABC" "B" | "DEF" Мне нужно преобразовать это во вложенный JSON формата ниже, {"data": [{"attribute": [ { "UUID": "А", "some_data": "ABC"}]}]} ...
вопрос задан: 4 March 2019 20:54
0
ответов

Почему rdd всегда пуст во время загрузки данных Кафки в реальном времени в HBase через PySpark?

В соответствии с этим руководством я пытаюсь выполнить в реальном времени ввод данных Kafka в HBase через PySpark. Кажется, все работает нормально. Я запускаю Кафку Судо /usr/local/kafka/bin/kafka-server-start.sh / ...
вопрос задан: 4 March 2019 20:49
0
ответов

элемент concat two array [row] в карте

У меня есть Array [Row] Я использую класс case, чтобы отобразить его, чтобы получить класс case в RDD MyClass (string, long) sparkSession.sparkContext. распараллелить (row.map (r1 = > MyClass (r1.getString (0) .concat (r1 ....
вопрос задан: 3 March 2019 22:11
0
ответов

Как уменьшить память исполнителя на основании результатов выполнения

У Spark есть spark.executor.memory. Насколько я понимаю, даже если моему приложению не нужно то, что определяет spark.executor.memory. Spark по-прежнему выделяет spark.executor.memory каждому исполнителю. Если мой ...
вопрос задан: 3 March 2019 21:41
0
ответов

Связывание полей bean-компонентов со столбцами файлов во время загрузки файла в набор данных

Можно ли привязать имена столбцов заголовков к полям Java-бина, если они не имеют одинакового имени? Какой сериализатор использует Spark под крышкой? Когда я пытаюсь создать набор данных, загружающий CSV-файл ...
вопрос задан: 3 March 2019 19:04
0
ответов

В чем разница между DStream и Seq [RDD]?

Определение DStream из состояний документации, Discretized Stream или DStream является основной абстракцией, предоставляемой Spark Streaming. Он представляет собой непрерывный поток данных, либо ...
вопрос задан: 3 March 2019 10:09
0
ответов

Доступ к Vertica с помощью Kerberos в PySpark

Я использую PySpark 2 & amp; пытается получить доступ к данным из Vertica, аутентифицированным Kerberos. Я использую следующий механизм с драйвером JDBC: # PySpark python 3.5 krb_url = "jdbc: vertica: // vertica ....
вопрос задан: 3 March 2019 08:57
0
ответов

Вернуть условный результат из Spark RDD Tuple2

Я новичок в Spark и использую с ним Java. На JavaRDD < Tuple2 < String, String > Я хотел бы выполнить операцию, в которой Tuple2._1 выступает в качестве ключа, а Tuple2._2 - в качестве значения. Для всех ...
вопрос задан: 2 March 2019 17:20
0
ответов

читать JSON в нескольких искровых данных, используя Scala

моя структура json выглядит примерно так: {"posts": [], "people": [], "organization": [], "meta": {"sources": ["http://loksabha.nic.in / "," http://wikidata.org/ "," ...
вопрос задан: 2 March 2019 06:50
0
ответов

Как отфильтровать недействительный xml

Я должен обработать несколько XML, образец XML ниже <? Xml version = "1.0"? > < Корень > < & Роу GT; < & Информация GT; < & название GT, штат Мичиган < / название > ...
вопрос задан: 1 March 2019 23:15
0
ответов

Zeppelin - Scala - Spark 2.3.1 с докером

Кто-нибудь нашел хороший док-контейнер, в котором был бы установлен Zeppelin with spark 2.3.1? Я несколько дней пытался собрать zeppelin с нуля, но безуспешно.
вопрос задан: 1 March 2019 22:16
0
ответов

Spark сохранить как JSON, игнорируя нулевые значения

Я получаю данные JSON от Кафки как RDD. {id: "A", amount: "100"} {id: "B", amount: "NULL"} Затем с помощью встроенных функций Spark создайте DataFrame spark.read.json (rdd), который даст мне ID | ...
вопрос задан: 1 March 2019 07:27
0
ответов

spark не любит префикс Posixpath, прикрепленный к списку файлов - это исправимо?

пытаться прочитать локальный каталог файлов через colab, используя функцию wholeTextFiles из pyspark, используя функцию pathlib Path. Я получаю ошибку атрибута, а именно: AttributeError: 'PosixPath' ...
вопрос задан: 28 February 2019 23:17
0
ответов

Поддержка Spark SQL для вложенных массивов и бинов

Каждый час я получаю некоторые полезные обновления как новый DataFrame. Я должен уменьшить DataFrames, чтобы дедуплицировать объекты и отслеживать историю обновлений значений. Потому что уменьшить логику слишком сложно, я ...
вопрос задан: 28 February 2019 22:14
0
ответов

Соедините pyspark с mongodb из Google-Colab

Я хочу подключить Pyspark и Google Colab. У меня есть информация в mongodb по облаку (mlab). В Google Colab я выполняю этот скрипт:! Apt-get install openjdk-8-jdk-headless -qq > / dev / null! ...
вопрос задан: 28 February 2019 21:40
0
ответов

Spark Scala, тренируй много моделей одновременно

У меня есть обучающий и тестовый набор данных с функциями и несколько тысяч значений customerId. Моя цель состоит в том, чтобы одновременно обучить один двоичный классификатор xgboost для каждого customerId в Spark. Я по сути пытаюсь ...
вопрос задан: 28 February 2019 09:06
0
ответов

Как использовать динамическое значение String через запятую в качестве входных данных для List ()?

Я создаю приложение Spark Scala, которое динамически перечисляет все таблицы в базе данных SQL Server, а затем загружает их в Apache Kudu. Я строю динамическую строковую переменную, которая отслеживает основной ...
вопрос задан: 28 February 2019 05:50
0
ответов

Реализация LivyClientFactory не найдена

У меня проблема: я следую этому руководству на официальной документации Livy: [https://livy.incubator.apache.org/docs/latest/programmatic-api.html]. Я создаю класс с именем PiJob для первого ...
вопрос задан: 27 February 2019 16:45