apache-spark - список вопросов по программированию apache-spark

4

ответа

Конвертировать HTTP-вызов синхронизации в асинхронный вызов в искровом [дубликат]

У нас есть RDD, чьи записи отправляются с использованием синхронного HTTP POST. Для оптимизации мы хотим конвертировать синхронные вызовы в асинхронные. Мы используем foreachPartition и не обрабатываем ...

http apache-spark

вопрос задан: 9 March 2016 21:46

4

ответа

Задача Spark httpclient не параллельна [дублировать]

Я новичок в scala / spark. Мне нужно написать искровое задание, которое заставляет API получать вызовы на основе входного файла urls.txt. Ниже приведены примеры кода. Я думаю, что Await ниже регулирует работу, но я не могу ...

scala http apache-spark

вопрос задан: 9 March 2016 21:46

4

ответа

& ldquo; Corrupt record & rdquo; при чтении многострочного JSON в Apache Spark [duplicate]

Мой JSON-файл выглядит следующим образом: {"a": 1, "b": 2} Моя команда в искры, чтобы прочитать это, является def main (args: Array [String]) {val spark = SparkSession.builder (). AppName ( "WordCount"). Мастер ( "местный [...

json scala apache-spark

вопрос задан: 15 February 2016 13:34

4

ответа

Как выполнить операцию слияния в искре [дубликат]

Поскольку у меня нет режима upsert в искровом sql, я пытаюсь выполнить операцию слияния в самой Spark sql. Моя таблица Target будет Oracle. У меня есть 2 DFF, один - набор данных History, а другой - инкрементный ...

oracle apache-spark hive apache-spark-sql

вопрос задан: 6 January 2016 22:33

4

ответа

Чтобы обновить таблицу базы данных, используя SparkSQL [duplicate]

Я пытаюсь выполнить операции с базой данных с помощью SparkSQL и Pyspark. Я использую DB Postgresql и использую DataFrameReader и Writer с пакетом jdbc. Мне нужно обновить несколько строк через ...

postgresql apache-spark pyspark sql-update apache-spark-sql

вопрос задан: 6 January 2016 22:33

4

ответа

Импорт SparkContext из pyspark под управлением Jupyter Notebook на AWS EC2 [дубликат]

После настройки сервера AWS EC2 Linux я установил Anaconda, Spark на Hadoop, как описано в следующей лекции: https: //medium.com/@josemarcialportilla/getting-spark-python-and-jupyter-notebook -...

python amazon-web-services apache-spark amazon-ec2 pyspark

вопрос задан: 4 January 2016 09:14

4

ответа

Почему искра занимает время, чтобы выделить исполнителей и память перед отправкой задания [дублировать]

Я занимаюсь искровым заданием, занимающим 18 лет, в течение 8 секунд для фактической логики обработки (бизнес-логика) и 10 секунд для распределения исполнителей и памяти. Любые идеи о том, как сократить время до начала искры ...

apache-spark pyspark apache-spark-sql

вопрос задан: 23 November 2015 02:30

4

ответа

Как рассказать PySpark, где находится пакет pymongo-spark? [Дубликат]

Я создаю Data Science env't на ноутбуке с Ubuntu 14.04 LTS. Инструкции приведены в главе 2 Agile Data Science от Russell Jurney. Мне нужно настроить PySpark, чтобы поговорить с MongoDB, используя ...

mongodb apache-spark hadoop pyspark

вопрос задан: 17 November 2015 18:58

4

ответа

Как использовать методы объектов в каждой строке фрейма искры в scala [duplicate]

Я создал RDD с тремя столбцами, классы которых - WrappedArray, SparseVector и DenseVector соответственно. Однако, когда я хочу вызывать методы любого объекта SparseVector, этот объект ...

scala apache-spark dataframe apache-spark-sql

вопрос задан: 8 October 2015 11:36

4

ответа

Как удалить вложенный массив из другого массива из DataFrame, прочитанного в JSON? [Дубликат]

Я новичок в Scala и Spark. У меня вопрос о том, как удалить вложенный массив из моего DataFrame. Это моя схема DataFrame: root | - dedupeMode: string (nullable = true) | - modules: array (...

json scala apache-spark dataframe nested

вопрос задан: 25 September 2015 23:39

4

ответа

Spark Streaming: Что именно делает transform ()? [Дубликат]

Я пробовал искать различные учебники, но не мог правильно понять, как именно преобразование () работает в искровом потоке. Что определяет RDD-to-RDD, как указано в документе Spark Streaming? Когда я должен ...

apache-spark spark-streaming

вопрос задан: 23 August 2015 14:57

4

ответа

hivecontext против искрового двигателя в улье [дубликат]

Я новичок в bigdata. Я хотел бы знать разницу между запущенными запросами в иске, используя hivecontext, и запускать запросы в улье с использованием искрового двигателя. Что лучше и почему?

sql apache-spark hive

вопрос задан: 24 July 2015 18:02

4

ответа

Сделать строку json из Spark Dataset [duplicate]

Я очень новичок в Spark / Scala. Учитывая набор данных искры, каков правильный способ построить из него строку json. Например: класс case MyDataset (a: String, b: String, c: integer) val ds = sparkSession ....

scala apache-spark

вопрос задан: 19 July 2015 21:10

4

ответа

Spark - Как измерить время выполнения этапов в DAG? [Дубликат]

У меня есть приложение Spark, которое имеет 4-5 рабочих мест. Я знаю, какая работа занимает больше времени, потому что это очевидно. Эта работа имеет DAG: thisTextFiles -> mapToPair -> flatMapToPair -> repartition -> ...

apache-spark distributed-computing partitioning directed-acyclic-graphs

вопрос задан: 17 June 2015 18:56

4

ответа

Мониторинг Spark Structured Streaming с пользовательскими событиями [duplicate]

Я работаю над заданием Spark Structured Streaming, которое запускает алгоритм машинного обучения. Алгоритм состоит из нескольких этапов. Я замечаю значительное замедление с течением времени (с точки зрения ...

performance apache-spark monitoring structured-streaming

вопрос задан: 17 June 2015 18:56

4

ответа

ошибка памяти в pyspark [дубликат]

Следуя настройке, которую я использую в своей работе pyspark. Я попытался увеличить объем памяти и количество драйверов, но продолжаю получать ошибку размера кучи. Как найти идеальные настройки, чтобы избежать этого ...

apache-spark pyspark

вопрос задан: 23 December 2014 19:22

4

ответа

Spark 2.2.0 - Как перечислить файлы в ведро S3 из EC2 [duplicate]

Я хочу загрузить файлы на основе метки времени, присутствующей в имени файла. Эти файлы находятся в ведре S3. Когда я запускаю свой скрипт локально, читая его из локальной папки, он работает без проблем. Когда я запускаю его ...

scala amazon-web-services apache-spark amazon-s3

вопрос задан: 27 June 2013 12:35

4

ответа

Внедрить наследование класса класса в именах искры и столбца [дубликат]

Следуя этому руководству здесь: https://blog.codecentric.de/en/2016/07/spark-2-0-datasets-case-classes/, и я понимаю концепцию создания признаков и расширения от них для новых классов дел, но как ...

scala apache-spark

вопрос задан: 3 October 2012 10:13

3

ответа

Конвертировать 20180918 в 2018-09-18 в Spark?

Заданный фрейм данных: + ----------------- + --------- + ----------------- + | user_id | ID | дата | скидка | год | + ----------------- + --------- + ----------------- + | 44143827 | 118775509 | 20180103 | 0 ....

scala apache-spark apache-spark-sql

вопрос задан: 20 March 2019 05:35

3

ответа

Считайте данные текстового файла с помощью Spark и разделите данные с помощью запятой

У меня есть данные в формате ниже. abc, x1, x2, x3 def, x1, x3, x4, x8, x9 ghi, x7, x10, x11 Требуемый вывод: 0, abc, [x1, x2, x3] 1, def, [x1, x3 х4, х8, х9] 2, ги, [х7, х10, х11]

python apache-spark pyspark

вопрос задан: 18 March 2019 15:48

3

ответа

В искре переберите каждый столбец и найдите максимальную длину

Я новичок в работе со Scala, и у меня следующая ситуация, как показано ниже. У меня есть таблица "TEST_TABLE" в кластере (может быть таблица кустов). Я преобразую ее в формат данных как: scala > val testDF = spark.sql ("...

scala apache-spark aggregation maxlength

вопрос задан: 19 January 2019 01:14

3

ответа

спарк ETL с объединениями из нескольких источников

У меня есть требование соединить 50 нечетных файлов на наборе из 3 ключей, используя кадры данных spark. У меня есть таблица драйверов, которая имеет 100000 записей в день. Я оставил присоединиться к этой таблице с 53 другими файлами, используя фреймы дан

apache-spark apache-spark-sql

вопрос задан: 16 January 2019 16:52

3

ответа

Как указать путь класса драйвера при использовании pyspark в ноутбуке jupyter? [Дубликат]

Я хочу запросить PostgreSQL с pyspark в ноутбуке jupyter. Я просмотрел много вопросов о StackOverflow, но никто из них не работал для меня, главным образом потому, что ответы казались устаревшими. Вот'...

python apache-spark pyspark jupyter-notebook

вопрос задан: 19 April 2018 01:38

3

ответа

Spark: как данные перераспределения groupBy [дубликаты]

Все в заголовке: из DataFrame примените df.groupBy ($ "col1", $ "col2", $ "col3"). Agg (...) Как кадр данных перераспределяется в кластер? Разделяет ли данные данные по заданным ключам, ...

apache-spark apache-spark-sql

вопрос задан: 4 December 2017 02:49

3

ответа

создание нового фрейма данных из завернутого массива scala [duplicate]

У меня есть dataframe, аналогичный следующему: + ------------------------------------- + --- ----------------- + | left | right | + ------------------------------------...

scala apache-spark

вопрос задан: 5 October 2017 22:00

3

ответа

Как загрузить модель дерева решений без Spark или PMML в Java [duplicate]

Я хочу загрузить обучаемый и сохраненный файл spark.mllib.tree.model.DecisionTreeModel, и я хочу загрузить его на Java. Я не могу использовать spark.read (). Load (...), потому что меня просят не создавать SparkSession, а я ...

java scala apache-spark machine-learning

вопрос задан: 16 May 2017 13:22

3

ответа

Производство искрового трубопровода [дубликат]

Использование Sparkling Water / H2o v. 2.3 для прогнозирования. Я пытаюсь экспортировать модель искрового трубопровода, содержащую модель H2o. Оценка должна выполняться на платформе, основанной на Java. Пожалуйста, предложите лучший метод ...

apache-spark h2o sparkling-water

вопрос задан: 16 May 2017 13:22

3

ответа

Напишите два кадра данных в один csv [duplicate]

У меня есть 2 кадра данных в pyspark Df1. Df2 Количество животных. Автомобиль. Граф Кат. 15 Toyota. 10 Собака. 20. ...

apache-spark dataframe join merge pyspark

вопрос задан: 19 December 2016 10:01

3

ответа

Искры-java: Исключение в thread & ldquo; main & rdquo; org.apache.spark.sql.AnalysisException [duplicate]

У меня ниже запрос, который отлично работает на SQL DEVELOPER: SELECT C.CIS_DIVISION, C.EFFDT AS START_DT, LEAD (EFFDT, 1) OVER (PARTITION by CIS_DIVISION, CHAR_TYPE_CD ORDER BY CIS_DIVISION, CHAR_TYPE_CD, ...

apache-spark apache-spark-sql

вопрос задан: 19 October 2016 16:32

3

ответа

Пользовательские функции pyspark для группировки объектов [дубликат]

Я выполняю groupby с помощью 'name' и apply function; my_func 'groupedData в pandas df.groupby ([' name ']). Apply (my_func) Я хочу выполнить такую же операцию в pyspark. Как это можно достичь. ...

apache-spark pyspark pyspark-sql

вопрос задан: 12 October 2016 19:01