В pyspark я хочу использовать Scala UDF для фильтрации массива с произвольным типом элемента. пакет com.example.spark.udf import scala.collection.mutable.WrappedArray import org.apache.spark.sql.api.java ....
Я хотел бы использовать библиотеку регистрации Pythons, но хочу, чтобы выходные данные журналов попадали в HDFS вместо локальной файловой системы для рабочего узла. Есть ли способ сделать это? регистрация журналов импорта ....
У меня есть класс данных набора данных MyDS (id: Int, name: String). Я хочу получить все имена в последовательности без использования команды collect. Я просмотрел различные посты, и единственное решение, которое я нашел, было ...
Я запустил работу спарк и, чтобы отслеживать процесс, я проверил веб-интерфейс, который предоставляет спарк. На странице исполнителя я вижу ввод 305 ГБ и увеличивается. При наведении курсора на столбец ввода я ...
У меня есть этот пример dataframe: id | A | Б | C | D 1 | NULL | 1 | 1 | NULL 2 | 1 | 1 | 1 | 1 3 | 1 | NULL | NULL | NULL и я хочу изменить на этот формат: newColumn 1 | { "B" ...
Я собираю MonoSpark (на основе Spark 1.3.1) с JDK 1.7 и Hadoop 2.6.2 этой командой (я отредактировал свой pom.xml, чтобы команда могла работать) ./make-distribution.sh --tgz -Phadoop-2.6 -Dhadoop.version = 2 ....
Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...
Я ищу способ легко выполнить параметризованный прогон ноутбуков Jupyter, и я нашел проект Papermill (https://github.com/nteract/papermill/). Этот инструмент, кажется, соответствует моим требованиям, но я ...
Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
Я использую Spark SQL 2.1, я могу читать данные из mysql / oracle как временное представление в Spark SQL: val url = "jdbc: mysql: // localhost: 3306 / db1" val user = "root" val pass = "root" val sql = s "" "...
Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время сталкиваюсь с индексом массива из связанной исключительной ситуации. Проверка: нет проблем с входным файлом. Все ряды имеют ...
Получение исключения nullpointer в w.toSeq.toDS () в приведенном ниже коде. var w = new ListBuffer [String] () jList match {case Some (x) = > {for (запись < - x) {w + = маппер ....
При выполнении перераспределения искра разрывает цепочку ленивых вычислений и вызывает ошибку, которую я не могу контролировать / ловить. // симуляция чтения потока из s3 def readFromS3 (partition: Int) ...
Например, в настоящее время у меня есть кластер DataProc, состоящий из мастера и 4 рабочих, каждая машина имеет 8 виртуальных ЦП и 30 ГБ памяти. Всякий раз, когда я отправляю задание в кластер, кластер передает максимум ...
У меня на ноутбуке работает докер-контейнер с мастером и тремя рабочими, я могу запустить типичный пример wordcount, введя ip мастера с помощью такой команды: bash-4.3 # spark / ...
У меня есть List [String] как ниже val colList = List (verifyLength ($ "col1", горит (0), горит (0), горит ("RJ"), горит (9)). As ("col1") verifyLength ($ "col2", горит (0), горит (0), горит ("RJ"), горит (16)). as ("col2")) Когда я ...
Я выполняю задание Spark с очень большими этапами (например,> 20 тыс. Заданий) и выполняю его с исполнителями от 1 до 2 тыс. В некоторых случаях сцена будет работать нестабильно: многие доступные исполнители становятся ...
Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...
Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки. Поэтому я использую функцию unix_timestamp для ее анализа. Однако я не могу найти правильный шаблон для использования. Я не знаю ...
Скажем, я хочу объединить 3 таблицы A, B, C с внутренним объединением, а C очень маленьким. #DUMMY ПРИМЕР с таблицей IN-MEMORY, но та же проблема, если загрузить таблицу с помощью spark.read.parquet ("") var A = (от 1 до 1000000) .toSeq ....
У меня есть искра DataFrame с разными столбцами. Tid | действие | BSSN | имя | ----------------------------- 1 | 123 | 111 | Петр 2 | 123 | 222 | Пол 3 | 456 | 333 | Джон 4 | 567 | ...
Я сталкиваюсь с дедупликационной ошибкой в сборке sbt, пытающейся упаковать мою многопроектную работу искры. Я посмотрел в документации по сборке sbt, и он говорит, что если вы пытаетесь исключить файлы JAR ...
Проблема Мне нужно обновить эту строку в моем коде. Как я могу это сделать? "case StringType = > concat_ws (", ", collect_list (col (c)))" Чтобы добавить только те строки, которых еще нет в существующем поле. В ...
В последнее время я хотел понять, как свечи используют сортировку в случайном порядке. Я обнаружил, что искра сортирует сторону картографа, а затем прибегает к тому же на стороне редуктора, используя сортировку Тимом. Если мы уже сортируем по картографу .
Все, чего я хочу достичь, это: Image 1 Итак, здесь вы можете видеть в первом изображении, у меня есть фрейм данных, в котором первые 4 строки имеют правильные значения хеш-функции, хранящиеся в соответствующих столбцах ("col_1_hash" имеет значение хеш-фун
У меня есть RDD [(Int, ListBuffer [Byte])], и мне нравится выполнять «подсчет слов», но для каждого числа в списке. Например, СДР: (31000, ListBuffer (1, 1, 0, 1, 0, 1, 1, 1, 1)) (21010, ListBuffer (0, ...
Я новичок в программировании Scala / Spark, и мне нужно сохранить DataFrame в виде файла XML, я получаю DataFrame из запроса HQL (Hive). Это простой DataFrame (без массивов или другого сложного типа), я уже ...