apache-spark - список вопросов по программированию apache-spark

2

ответа

Невозможно зарегистрировать Scala UDF для pyspark [duplicate]

В pyspark я хочу использовать Scala UDF для фильтрации массива с произвольным типом элемента. пакет com.example.spark.udf import scala.collection.mutable.WrappedArray import org.apache.spark.sql.api.java ....

scala apache-spark pyspark

вопрос задан: 12 May 2013 10:43

2

ответа

PySpark Вход в HDFS вместо локальной файловой системы [duplicate]

Я хотел бы использовать библиотеку регистрации Pythons, но хочу, чтобы выходные данные журналов попадали в HDFS вместо локальной файловой системы для рабочего узла. Есть ли способ сделать это? регистрация журналов импорта ....

apache-spark pyspark

вопрос задан: 7 May 2013 14:21

2

ответа

IndexOutBoundException При копировании файла изображения [дубликат]

def saveImages (imageURL: String, destination: String): String = {val file = new URLDataSource (новый java.net.URL (imageURL)) val inputStream = file.getInputStream val rootPath: String = "...

scala apache-spark

вопрос задан: 10 March 2011 11:20

1

ответ

Spark Scala - Получить столбец набора данных и преобразовать в Seq

У меня есть класс данных набора данных MyDS (id: Int, name: String). Я хочу получить все имена в последовательности без использования команды collect. Я просмотрел различные посты, и единственное решение, которое я нашел, было ...

scala apache-spark dataset seq

вопрос задан: 26 June 2019 23:47

1

ответ

Spark UI Входные значения столбца слишком велики

Я запустил работу спарк и, чтобы отслеживать процесс, я проверил веб-интерфейс, который предоставляет спарк. На странице исполнителя я вижу ввод 305 ГБ и увеличивается. При наведении курсора на столбец ввода я ...

apache-spark

вопрос задан: 27 April 2019 15:53

1

ответ

Как преобразовать в список из многих столбцов данных в Spark?

У меня есть этот пример dataframe: id | A | Б | C | D 1 | NULL | 1 | 1 | NULL 2 | 1 | 1 | 1 | 1 3 | 1 | NULL | NULL | NULL и я хочу изменить на этот формат: newColumn 1 | { "B" ...

scala list apache-spark null apache-spark-sql

вопрос задан: 3 April 2019 07:41

1

ответ

org.apache.spark.SparkException: Задание прервано из-за сбоя этапа: Задание на этапе завершено ， Потерянное задание на этапе: ExecutorLostFailure (исполнитель 4 потерян)

Я собираю MonoSpark (на основе Spark 1.3.1) с JDK 1.7 и Hadoop 2.6.2 этой командой (я отредактировал свой pom.xml, чтобы команда могла работать) ./make-distribution.sh --tgz -Phadoop-2.6 -Dhadoop.version = 2 ....

apache-spark cluster-computing

вопрос задан: 1 April 2019 03:17

1

ответ

Как сделать sql jointure на спарк?

Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...

sql apache-spark pyspark pyspark-sql

вопрос задан: 30 March 2019 03:53

1

ответ

Поддержка Papermill PySpark

Я ищу способ легко выполнить параметризованный прогон ноутбуков Jupyter, и я нашел проект Papermill (https://github.com/nteract/papermill/). Этот инструмент, кажется, соответствует моим требованиям, но я ...

python apache-spark pyspark jupyter-notebook papermill

вопрос задан: 29 March 2019 16:53

1

ответ

Улей на спарк - почему не «выбрать *» Spawn Spark приложение / исполнителей?

Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...

apache-spark hadoop hive mapreduce hiveql

вопрос задан: 29 March 2019 16:23

1

ответ

Поддерживает ли Spark SQL 2.1 запись временной таблицы или таблицы кустов в Mysql / Oracle?

Я использую Spark SQL 2.1, я могу читать данные из mysql / oracle как временное представление в Spark SQL: val url = "jdbc: mysql: // localhost: 3306 / db1" val user = "root" val pass = "root" val sql = s "" "...

apache-spark

вопрос задан: 29 March 2019 04:26

1

ответ

Ошибка при чтении файла CSV в Spark - Scala

Я пытаюсь прочитать файл CSV в Spark - используя API для чтения CSV. Я в настоящее время сталкиваюсь с индексом массива из связанной исключительной ситуации. Проверка: нет проблем с входным файлом. Все ряды имеют ...

scala csv apache-spark apache-spark-sql

вопрос задан: 28 March 2019 07:15

1

ответ

toSeq.toDS (), дающий java.lang.NullPointerException

Получение исключения nullpointer в w.toSeq.toDS () в приведенном ниже коде. var w = new ListBuffer [String] () jList match {case Some (x) = > {for (запись < - x) {w + = маппер ....

scala apache-spark

вопрос задан: 27 March 2019 06:50

1

ответ

разделение с помощью искры разрывает цепочку отложенных вычислений и вызывает ошибку, которую я не могу уловить

При выполнении перераспределения искра разрывает цепочку ленивых вычислений и вызывает ошибку, которую я не могу контролировать / ловить. // симуляция чтения потока из s3 def readFromS3 (partition: Int) ...

scala apache-spark apache-spark-2.0

вопрос задан: 22 March 2019 21:54

1

ответ

Как получить качественное задание на использование всех доступных ресурсов в кластере Google Cloud DataProc?

Например, в настоящее время у меня есть кластер DataProc, состоящий из мастера и 4 рабочих, каждая машина имеет 8 виртуальных ЦП и 30 ГБ памяти. Всякий раз, когда я отправляю задание в кластер, кластер передает максимум ...

apache-spark google-cloud-platform google-cloud-dataproc

вопрос задан: 20 March 2019 14:17

1

ответ

Как передать аргументы в spark-submit с помощью Docker

У меня на ноутбуке работает докер-контейнер с мастером и тремя рабочими, я могу запустить типичный пример wordcount, введя ip мастера с помощью такой команды: bash-4.3 # spark / ...

scala docker apache-spark

вопрос задан: 19 March 2019 17:29

1

ответ

Как передать List [String] для выбора или selectExpr в искре, когда строка также содержит UDF

У меня есть List [String] как ниже val colList = List (verifyLength ($ "col1", горит (0), горит (0), горит ("RJ"), горит (9)). As ("col1") verifyLength ($ "col2", горит (0), горит (0), горит ("RJ"), горит (16)). as ("col2")) Когда я ...

scala apache-spark apache-spark-sql hadoop2

вопрос задан: 19 March 2019 16:38

1

ответ

Почему не очень большая сцена Spark, использующая всех доступных исполнителей?

Я выполняю задание Spark с очень большими этапами (например,> 20 тыс. Заданий) и выполняю его с исполнителями от 1 до 2 тыс. В некоторых случаях сцена будет работать нестабильно: многие доступные исполнители становятся ...

apache-spark

вопрос задан: 19 March 2019 16:32

1

ответ

Как сгенерировать агрегацию длинных выражений набора данных Spark в цикле?

Я использую Java Spark для оценки набора данных. Мне нужно объединить набор данных по множеству выражений, чтобы код был длинным и безобразным. Expers имеют некоторые общие логики, могу ли я генерировать expers с помощью циклов? Вот ...

java apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 19 March 2019 11:18

1

ответ

Pyspark разобрать пользовательский формат даты

Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки. Поэтому я использую функцию unix_timestamp для ее анализа. Однако я не могу найти правильный шаблон для использования. Я не знаю ...

apache-spark datetime pyspark

вопрос задан: 19 March 2019 08:29

1

ответ

Загрузить RDD от имени

В спарк, вы можете сделать setName на СДР. Можно ли загрузить RDD от имени? Как и spark.loadRDD (имя)? Благодарю.

scala apache-spark

вопрос задан: 18 March 2019 23:28

1

ответ

Можем ли мы использовать CBO Spark (Оптимизатор затрат) с собственным паркетом или в фрейме данных в памяти?

Скажем, я хочу объединить 3 таблицы A, B, C с внутренним объединением, а C очень маленьким. #DUMMY ПРИМЕР с таблицей IN-MEMORY, но та же проблема, если загрузить таблицу с помощью spark.read.parquet ("") var A = (от 1 до 1000000) .toSeq ....

apache-spark parquet cbo

вопрос задан: 18 March 2019 16:39

1

ответ

Агрегат PySpark и условия

У меня есть вопрос по PySpark. df = (sc.parallelize ([{"Day": 1, "Sensitive_ID": "1234", "Num": 3}, {"Day": 1, "Sensitive_id": "1234", "NUM": 3 }, {"Day": 2, "itive_id ":" 1234 "," num ": 3}, {" ...

apache-spark pyspark pyspark-sql

вопрос задан: 18 March 2019 16:04

1

ответ

Сравните значение столбца в одной строке с тем же значением столбца в предыдущей строке с тем же DataFrame в Spark

У меня есть искра DataFrame с разными столбцами. Tid | действие | BSSN | имя | ----------------------------- 1 | 123 | 111 | Петр 2 | 123 | 222 | Пол 3 | 456 | 333 | Джон 4 | 567 | ...

java apache-spark

вопрос задан: 18 March 2019 01:30

1

ответ

Что документация по сборке sbt подразумевает под "ldquo; уже частью контейнера?"

Я сталкиваюсь с дедупликационной ошибкой в сборке sbt, пытающейся упаковать мою многопроектную работу искры. Я посмотрел в документации по сборке sbt, и он говорит, что если вы пытаетесь исключить файлы JAR ...

scala apache-spark jar sbt sbt-assembly

вопрос задан: 17 March 2019 22:16

1

ответ

Сбор уникальных элементов во время агрегации Spark

Проблема Мне нужно обновить эту строку в моем коде. Как я могу это сделать? "case StringType = > concat_ws (", ", collect_list (col (c)))" Чтобы добавить только те строки, которых еще нет в существующем поле. В ...

scala apache-spark append

вопрос задан: 17 March 2019 22:04

1

ответ

Apache spark shuffle: почему мы делаем повторную сортировку на стороне редуктора даже после сортировки на стороне отображения

В последнее время я хотел понять, как свечи используют сортировку в случайном порядке. Я обнаружил, что искра сортирует сторону картографа, а затем прибегает к тому же на стороне редуктора, используя сортировку Тимом. Если мы уже сортируем по картографу .

apache-spark

вопрос задан: 17 March 2019 21:12

1

ответ

Scala Spark столбцы DataFrame в виде карты и сравнить их с помощью Foldleft

Все, чего я хочу достичь, это: Image 1 Итак, здесь вы можете видеть в первом изображении, у меня есть фрейм данных, в котором первые 4 строки имеют правильные значения хеш-функции, хранящиеся в соответствующих столбцах ("col_1_hash" имеет значение хеш-фун

scala apache-spark apache-spark-sql scala-collections

вопрос задан: 12 March 2019 20:31

1

ответ

Scala Pairs: как посчитать количество вхождений в значении (список чисел) [дубликаты]

У меня есть RDD [(Int, ListBuffer [Byte])], и мне нравится выполнять «подсчет слов», но для каждого числа в списке. Например, СДР: (31000, ListBuffer (1, 1, 0, 1, 0, 1, 1, 1, 1)) (21010, ListBuffer (0, ...

scala apache-spark

вопрос задан: 10 March 2019 12:33

1

ответ

Spark DataFrame в XML-файл

Я новичок в программировании Scala / Spark, и мне нужно сохранить DataFrame в виде файла XML, я получаю DataFrame из запроса HQL (Hive). Это простой DataFrame (без массивов или другого сложного типа), я уже ...

xml scala apache-spark dataframe

вопрос задан: 10 March 2019 00:08