2
ответа

Невозможно зарегистрировать Scala UDF для pyspark [duplicate]

В pyspark я хочу использовать Scala UDF для фильтрации массива с произвольным типом элемента. пакет com.example.spark.udf import scala.collection.mutable.WrappedArray import org.apache.spark.sql.api.java ....
вопрос задан: 12 May 2013 10:43
2
ответа

PySpark Вход в HDFS вместо локальной файловой системы [duplicate]

Я хотел бы использовать библиотеку регистрации Pythons, но хочу, чтобы выходные данные журналов попадали в HDFS вместо локальной файловой системы для рабочего узла. Есть ли способ сделать это? регистрация журналов импорта ....
вопрос задан: 7 May 2013 14:21
2
ответа

IndexOutBoundException При копировании файла изображения [дубликат]

def saveImages (imageURL: String, destination: String): String = {val file = new URLDataSource (новый java.net.URL (imageURL)) val inputStream = file.getInputStream val rootPath: String = "...
вопрос задан: 10 March 2011 11:20
1
ответ

Spark Scala - Получить столбец набора данных и преобразовать в Seq

У меня есть класс данных набора данных MyDS (id: Int, name: String). Я хочу получить все имена в последовательности без использования команды collect. Я просмотрел различные посты, и единственное решение, которое я нашел, было ...
вопрос задан: 26 June 2019 23:47
1
ответ

Spark UI Входные значения столбца слишком велики

Я запустил работу спарк и, чтобы отслеживать процесс, я проверил веб-интерфейс, который предоставляет спарк. На странице исполнителя я вижу ввод 305 ГБ и увеличивается. При наведении курсора на столбец ввода я ...
вопрос задан: 27 April 2019 15:53
1
ответ

Как преобразовать в список из многих столбцов данных в Spark?

У меня есть этот пример dataframe: id | A | Б | C | D 1 | NULL | 1 | 1 | NULL 2 | 1 | 1 | 1 | 1 3 | 1 | NULL | NULL | NULL и я хочу изменить на этот формат: newColumn 1 | { "B" ...
вопрос задан: 3 April 2019 07:41
1
ответ

org.apache.spark.SparkException: Задание прервано из-за сбоя этапа: Задание на этапе завершено , Потерянное задание на этапе: ExecutorLostFailure (исполнитель 4 потерян)

Я собираю MonoSpark (на основе Spark 1.3.1) с JDK 1.7 и Hadoop 2.6.2 этой командой (я отредактировал свой pom.xml, чтобы команда могла работать) ./make-distribution.sh --tgz -Phadoop-2.6 -Dhadoop.version = 2 ....
вопрос задан: 1 April 2019 03:17
1
ответ

Как сделать sql jointure на спарк?

Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...
вопрос задан: 30 March 2019 03:53
1
ответ

Поддержка Papermill PySpark

Я ищу способ легко выполнить параметризованный прогон ноутбуков Jupyter, и я нашел проект Papermill (https://github.com/nteract/papermill/). Этот инструмент, кажется, соответствует моим требованиям, но я ...
вопрос задан: 29 March 2019 16:53
1
ответ

Улей на спарк - почему не «выбрать *» Spawn Spark приложение / исполнителей?

Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
вопрос задан: 29 March 2019 16:23
1
ответ

Поддерживает ли Spark SQL 2.1 запись временной таблицы или таблицы кустов в Mysql / Oracle?

Я использую Spark SQL 2.1, я могу читать данные из mysql / oracle как временное представление в Spark SQL: val url = "jdbc: mysql: // localhost: 3306 / db1" val user = "root" val pass = "root" val sql = s "" "...
вопрос задан: 29 March 2019 04:26
1
ответ

Ошибка при чтении файла CSV в Spark - Scala

Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время сталкиваюсь с индексом массива из связанной исключительной ситуации. Проверка: нет проблем с входным файлом. Все ряды имеют ...
вопрос задан: 28 March 2019 07:15
1
ответ

toSeq.toDS (), дающий java.lang.NullPointerException

Получение исключения nullpointer в w.toSeq.toDS () в приведенном ниже коде. var w = new ListBuffer [String] () jList match {case Some (x) = > {for (запись < - x) {w + = маппер ....
вопрос задан: 27 March 2019 06:50
1
ответ

разделение с помощью искры разрывает цепочку отложенных вычислений и вызывает ошибку, которую я не могу уловить

При выполнении перераспределения искра разрывает цепочку ленивых вычислений и вызывает ошибку, которую я не могу контролировать / ловить. // симуляция чтения потока из s3 def readFromS3 (partition: Int) ...
вопрос задан: 22 March 2019 21:54
1
ответ

Как получить качественное задание на использование всех доступных ресурсов в кластере Google Cloud DataProc?

Например, в настоящее время у меня есть кластер DataProc, состоящий из мастера и 4 рабочих, каждая машина имеет 8 виртуальных ЦП и 30 ГБ памяти. Всякий раз, когда я отправляю задание в кластер, кластер передает максимум ...
вопрос задан: 20 March 2019 14:17
1
ответ

Как передать аргументы в spark-submit с помощью Docker

У меня на ноутбуке работает докер-контейнер с мастером и тремя рабочими, я могу запустить типичный пример wordcount, введя ip мастера с помощью такой команды: bash-4.3 # spark / ...
вопрос задан: 19 March 2019 17:29
1
ответ

Как передать List [String] для выбора или selectExpr в искре, когда строка также содержит UDF

У меня есть List [String] как ниже val colList = List (verifyLength ($ "col1", горит (0), горит (0), горит ("RJ"), горит (9)). As ("col1") verifyLength ($ "col2", горит (0), горит (0), горит ("RJ"), горит (16)). as ("col2")) Когда я ...
вопрос задан: 19 March 2019 16:38
1
ответ

Почему не очень большая сцена Spark, использующая всех доступных исполнителей?

Я выполняю задание Spark с очень большими этапами (например,> 20 тыс. Заданий) и выполняю его с исполнителями от 1 до 2 тыс. В некоторых случаях сцена будет работать нестабильно: многие доступные исполнители становятся ...
вопрос задан: 19 March 2019 16:32
1
ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...
вопрос задан: 19 March 2019 11:18
1
ответ

Pyspark разобрать пользовательский формат даты

Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки. Поэтому я использую функцию unix_timestamp для ее анализа. Однако я не могу найти правильный шаблон для использования. Я не знаю ...
вопрос задан: 19 March 2019 08:29
1
ответ

Загрузить RDD от имени

В спарк, вы можете сделать setName на СДР. Можно ли загрузить RDD от имени? Как и spark.loadRDD (имя)? Благодарю.
вопрос задан: 18 March 2019 23:28
1
ответ

Можем ли мы использовать CBO Spark (Оптимизатор затрат) с собственным паркетом или в фрейме данных в памяти?

Скажем, я хочу объединить 3 таблицы A, B, C с внутренним объединением, а C очень маленьким. #DUMMY ПРИМЕР с таблицей IN-MEMORY, но та же проблема, если загрузить таблицу с помощью spark.read.parquet ("") var A = (от 1 до 1000000) .toSeq ....
вопрос задан: 18 March 2019 16:39
1
ответ

Агрегат PySpark и условия

У меня есть вопрос по PySpark. df = (sc.parallelize ([{"Day": 1, "Sensitive_ID": "1234", "Num": 3}, {"Day": 1, "Sensitive_id": "1234", "NUM": 3 }, {"Day": 2, "itive_id ":" 1234 "," num ": 3}, {" ...
вопрос задан: 18 March 2019 16:04
1
ответ

Сравните значение столбца в одной строке с тем же значением столбца в предыдущей строке с тем же DataFrame в Spark

У меня есть искра DataFrame с разными столбцами. Tid | действие | BSSN | имя | ----------------------------- 1 | 123 | 111 | Петр 2 | 123 | 222 | Пол 3 | 456 | 333 | Джон 4 | 567 | ...
вопрос задан: 18 March 2019 01:30
1
ответ

Что документация по сборке sbt подразумевает под "ldquo; уже частью контейнера?"

Я сталкиваюсь с дедупликационной ошибкой в ​​сборке sbt, пытающейся упаковать мою многопроектную работу искры. Я посмотрел в документации по сборке sbt, и он говорит, что если вы пытаетесь исключить файлы JAR ...
вопрос задан: 17 March 2019 22:16
1
ответ

Сбор уникальных элементов во время агрегации Spark

Проблема Мне нужно обновить эту строку в моем коде. Как я могу это сделать? "case StringType = > concat_ws (", ", collect_list (col (c)))" Чтобы добавить только те строки, которых еще нет в существующем поле. В ...
вопрос задан: 17 March 2019 22:04
1
ответ

Apache spark shuffle: почему мы делаем повторную сортировку на стороне редуктора даже после сортировки на стороне отображения

В последнее время я хотел понять, как свечи используют сортировку в случайном порядке. Я обнаружил, что искра сортирует сторону картографа, а затем прибегает к тому же на стороне редуктора, используя сортировку Тимом. Если мы уже сортируем по картографу .
вопрос задан: 17 March 2019 21:12
1
ответ

Scala Spark столбцы DataFrame в виде карты и сравнить их с помощью Foldleft

Все, чего я хочу достичь, это: Image 1 Итак, здесь вы можете видеть в первом изображении, у меня есть фрейм данных, в котором первые 4 строки имеют правильные значения хеш-функции, хранящиеся в соответствующих столбцах ("col_1_hash" имеет значение хеш-фун
вопрос задан: 12 March 2019 20:31
1
ответ

Scala Pairs: как посчитать количество вхождений в значении (список чисел) [дубликаты]

У меня есть RDD [(Int, ListBuffer [Byte])], и мне нравится выполнять «подсчет слов», но для каждого числа в списке. Например, СДР: (31000, ListBuffer (1, 1, 0, 1, 0, 1, 1, 1, 1)) (21010, ListBuffer (0, ...
вопрос задан: 10 March 2019 12:33
1
ответ

Spark DataFrame в XML-файл

Я новичок в программировании Scala / Spark, и мне нужно сохранить DataFrame в виде файла XML, я получаю DataFrame из запроса HQL (Hive). Это простой DataFrame (без массивов или другого сложного типа), я уже ...
вопрос задан: 10 March 2019 00:08