У меня есть два класса scala, как часть моей работы с spark-sql, то есть Driver.scala и ExtractorOne.scala. Driver.scala передает различные параметры, такие как объект sparkSession и т. Д., В различные экстракторы, такие как ...
У меня есть многострочный json, такой как {"_id": {"$ oid": "50b59cd75bed76f46522c34e"}, "student_id": 0, "class_id": 2, "Scores": [{"type": "exam", "score": 57.92947112575566}, {"type": "...
Я хочу выполнить поиск по сетке на моей модели случайного леса в Apache Spark. Но я не могу найти пример для этого. Есть ли пример на данных образца, где я могу сделать гипер-настройку параметров, используя ...
Хорошо, вот моя основная информация, прежде чем я продолжу: MacBook Pro: OS X 10.14.2 Python Версия: 3.6.7 Java JDK: V8.u201 Я пытаюсь установить Apache Spark Python API (PySpark) на мой компьютер. Я сделал ...
Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1 ТБ) файл с S3. Как несколько искровых исполнителей параллельно читают очень большой файл из S3. В HDFS это очень ...
Мы можем использовать --conf spark.app.country = US для отправки параметров в исходный код в команде оболочки shell submit. Но для таких конфигураций, как oracle.net.tns_admin и java.security.egd, они не начинаются с ...
У нас есть одна тестовая виртуальная машина EC2 с spark master и 3 работника spark, какие настройки нужно сделать, чтобы Redis работал с PySpark? Благодарю.
У меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых столбцов без вмешательства в другие столбцы. Например, вот мой набор данных data_set, vol, канал Dak, 10, ABC ...
У меня есть фрейм данных Spark, где один столбец является массивом целых чисел. Столбец обнуляется, потому что он исходит из левого внешнего соединения. Я хочу преобразовать все нулевые значения в пустой массив, чтобы я не ...
Я использую pyspark, загружая большой файл csv в фрейм данных с помощью spark-csv, и в качестве шага предварительной обработки мне нужно применить различные операции к данным, доступным в одном из столбцов (что ...
У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
Я пытаюсь преобразовать код, написанный с использованием Dataframe в DataSet API. Проблема в том, что я создал JavaRDD как: final JavaRDD & lt; String & gt; abcJavaRdd = jsc.textFile ("/ path / to / textfile"); Но ...
У меня есть кадр данных следующим образом: df = spark.createDataFrame ([(1, "2017-12-03", "" "{" 1 ": [{" john ": [12443,12441]," james ": [14380,14379,13463], "Майк": [...
Есть ли какая-либо техническая причина, почему искра 2.3 не работает с java 1.10 (по состоянию на июль 2018 года)? Вот результат, когда я запускаю пример SparkPi с использованием spark-submit. $ ./bin/spark-submit ./examples/src / ...
Я только что перешел из локальной установки Spark в автономный кластер Spark. Очевидно, что загрузка и сохранение файлов больше не работает. Я понимаю, что мне нужно использовать Hadoop для сохранения и загрузки файлов. Мой ...
Я пишу искровое задание, которое должно быть запущено локально, а также Databricks. Код должен быть немного другим в каждой среде (пути к файлу), поэтому я пытаюсь найти способ обнаружения, если ...
Я должен делать ETL для каждого дня, а затем добавлять его к одному файлу данных. Например: после каждого дня ETL следуют выходы .. df1: id category количество дата 1 abc 100 01-07-18 2 ...
Я работаю с DataFrames и нуждаюсь в извлечении данных. У меня много вложенных уровней, поэтому я сделал первый уровень с взрывами и выборами, но затем я использую UDF для вложенных уровней. У меня есть UDF, берущий $ Root ....
Я пытаюсь написать оператор условия для объединения двух шаблонов данных Spark вместе в Scala: val joinCondition = когда ($ "filterRESULT.key" == $ "allDataUSE.key" & amp; $ "allDataUSE.timestamp" & gt; .. ,
У меня проблема с использованием функции instr () в Spark. Определение функции выглядит следующим образом: instr (столбец str, строковая подстрока). Проблема в том, что мне нужно использовать значение типа столбца как второе ...
Я определил UDF с UDO в качестве параметров. Но когда я попытался вызвать его в dataframe, я получил сообщение об ошибке «org.apache.spark.SparkException: не удалось выполнить определенную пользователем функцию ($ anonfun $ 1: (array) = ...
Я загрузил искру версии 2.3.1, и я получил следующую ошибку: Ошибка в spark_version_from_home (spark_home, default = spark_version): Не удалось обнаружить версию из SPARK_HOME или ...
Я прочитал файл csv в dataframe, и я хочу сортировать df в порядке импорта. Org.apache.spark.sql. {Dataset, DataFrame, SparkSession} scala & gt; df.sort ($ "year", "state" .ASC): 37: error: value ...
Мой код выглядит как foo.rdd.countApprox (1000, 0.9) = & gt; занимает 7,1 минуты. foo.count () = & gt; занимает 7,1 минуты. Есть ли что-нибудь, что мне не хватает? foo - это df, и я стараюсь сократить время, которое требуется ...
Привет. Нужна помощь в преобразовании ниже SQL-запроса в SPARK-SQL. выберите listAgg (txnid, ',') внутри группы (порядок по txndate) как txnlist, listAgg (mid, ',') внутри группы (порядок по txndate) как midList, cardno, ...
Я новый ученик для Spark Scala. У меня есть udf, и он работает с ошибкой return Исключение в потоке «main» java.lang.UnsupportedOperationException: схема для типа Unit не поддерживается Код: val ...
Мне нужно написать пользовательскую функцию GroupBy.Apply () для pyspark. Поэтому я сказал: Представляем Pandas UDF для PySpark. Как я уже сказал, я попытался - @pandas_udf (& lt; mydf & gt; .schema, PandasUDFType.GROUPED_MAP) ...
Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...