У нас есть RDD, чьи записи отправляются с использованием синхронного HTTP POST. Для оптимизации мы хотим конвертировать синхронные вызовы в асинхронные. Мы используем foreachPartition и не обрабатываем ...
Я новичок в scala / spark. Мне нужно написать искровое задание, которое заставляет API получать вызовы на основе входного файла urls.txt. Ниже приведены примеры кода. Я думаю, что Await ниже регулирует работу, но я не могу ...
Мой JSON-файл выглядит следующим образом: {"a": 1, "b": 2} Моя команда в искры, чтобы прочитать это, является def main (args: Array [String]) {val spark = SparkSession.builder (). AppName ( "WordCount"). Мастер ( "местный [...
Поскольку у меня нет режима upsert в искровом sql, я пытаюсь выполнить операцию слияния в самой Spark sql. Моя таблица Target будет Oracle. У меня есть 2 DFF, один - набор данных History, а другой - инкрементный ...
Я пытаюсь выполнить операции с базой данных с помощью SparkSQL и Pyspark. Я использую DB Postgresql и использую DataFrameReader и Writer с пакетом jdbc. Мне нужно обновить несколько строк через ...
После настройки сервера AWS EC2 Linux я установил Anaconda, Spark на Hadoop, как описано в следующей лекции: https: //medium.com/@josemarcialportilla/getting-spark-python-and-jupyter-notebook -...
Я занимаюсь искровым заданием, занимающим 18 лет, в течение 8 секунд для фактической логики обработки (бизнес-логика) и 10 секунд для распределения исполнителей и памяти. Любые идеи о том, как сократить время до начала искры ...
Я создаю Data Science env't на ноутбуке с Ubuntu 14.04 LTS. Инструкции приведены в главе 2 Agile Data Science от Russell Jurney. Мне нужно настроить PySpark, чтобы поговорить с MongoDB, используя ...
Я создал RDD с тремя столбцами, классы которых - WrappedArray, SparseVector и DenseVector соответственно. Однако, когда я хочу вызывать методы любого объекта SparseVector, этот объект ...
Я новичок в Scala и Spark. У меня вопрос о том, как удалить вложенный массив из моего DataFrame. Это моя схема DataFrame: root | - dedupeMode: string (nullable = true) | - modules: array (...
Я пробовал искать различные учебники, но не мог правильно понять, как именно преобразование () работает в искровом потоке. Что определяет RDD-to-RDD, как указано в документе Spark Streaming? Когда я должен ...
Я новичок в bigdata. Я хотел бы знать разницу между запущенными запросами в иске, используя hivecontext, и запускать запросы в улье с использованием искрового двигателя. Что лучше и почему?
Я очень новичок в Spark / Scala. Учитывая набор данных искры, каков правильный способ построить из него строку json. Например: класс case MyDataset (a: String, b: String, c: integer) val ds = sparkSession ....
У меня есть приложение Spark, которое имеет 4-5 рабочих мест. Я знаю, какая работа занимает больше времени, потому что это очевидно. Эта работа имеет DAG: thisTextFiles -> mapToPair -> flatMapToPair -> repartition -> ...
Я работаю над заданием Spark Structured Streaming, которое запускает алгоритм машинного обучения. Алгоритм состоит из нескольких этапов. Я замечаю значительное замедление с течением времени (с точки зрения ...
Следуя настройке, которую я использую в своей работе pyspark. Я попытался увеличить объем памяти и количество драйверов, но продолжаю получать ошибку размера кучи. Как найти идеальные настройки, чтобы избежать этого ...
Я хочу загрузить файлы на основе метки времени, присутствующей в имени файла. Эти файлы находятся в ведре S3. Когда я запускаю свой скрипт локально, читая его из локальной папки, он работает без проблем. Когда я запускаю его ...
Следуя этому руководству здесь: https://blog.codecentric.de/en/2016/07/spark-2-0-datasets-case-classes/, и я понимаю концепцию создания признаков и расширения от них для новых классов дел, но как ...
Я новичок в работе со Scala, и у меня следующая ситуация, как показано ниже. У меня есть таблица "TEST_TABLE" в кластере (может быть таблица кустов). Я преобразую ее в формат данных как: scala > val testDF = spark.sql ("...
У меня есть требование соединить 50 нечетных файлов на наборе из 3 ключей, используя кадры данных spark. У меня есть таблица драйверов, которая имеет 100000 записей в день. Я оставил присоединиться к этой таблице с 53 другими файлами, используя фреймы дан
Я хочу запросить PostgreSQL с pyspark в ноутбуке jupyter. Я просмотрел много вопросов о StackOverflow, но никто из них не работал для меня, главным образом потому, что ответы казались устаревшими. Вот'...
Все в заголовке: из DataFrame примените df.groupBy ($ "col1", $ "col2", $ "col3"). Agg (...) Как кадр данных перераспределяется в кластер? Разделяет ли данные данные по заданным ключам, ...
У меня есть dataframe, аналогичный следующему: + ------------------------------------- + --- ----------------- + | left | right | + ------------------------------------...
Я хочу загрузить обучаемый и сохраненный файл spark.mllib.tree.model.DecisionTreeModel, и я хочу загрузить его на Java. Я не могу использовать spark.read (). Load (...), потому что меня просят не создавать SparkSession, а я ...
Использование Sparkling Water / H2o v. 2.3 для прогнозирования. Я пытаюсь экспортировать модель искрового трубопровода, содержащую модель H2o. Оценка должна выполняться на платформе, основанной на Java. Пожалуйста, предложите лучший метод ...
У меня ниже запрос, который отлично работает на SQL DEVELOPER: SELECT C.CIS_DIVISION, C.EFFDT AS START_DT, LEAD (EFFDT, 1) OVER (PARTITION by CIS_DIVISION, CHAR_TYPE_CD ORDER BY CIS_DIVISION, CHAR_TYPE_CD, ...
Я выполняю groupby с помощью 'name' и apply function; my_func 'groupedData в pandas df.groupby ([' name ']). Apply (my_func) Я хочу выполнить такую же операцию в pyspark. Как это можно достичь. ...