apache-spark - список вопросов по программированию apache-spark

1

ответ

Не удалось собрать в & hellip; из-за отмены этапа, потому что SparkContext был закрыт

Я хочу отобразить количество элементов в каждом разделе, поэтому я пишу следующее: def count_in_a_partition (iterator): yield sum (1 для _ в итераторе) Если я использую его как этот print ("number of ...

apache-spark pyspark rdd

вопрос задан: 19 February 2019 14:54

1

ответ

Почему преобразование Spark DataFrame в RDD требует полного переопределения?

Из исходного кода Spark: / ** * Представляет содержимое набора данных в виде `RDD`` T`. * * @group basic * @since 1.6.0 * / lazy val rdd: RDD [T] = {val objectType = exprEnc ....

scala apache-spark

вопрос задан: 5 February 2019 23:36

1

ответ

Как изменить & ldquo; организовать & rdquo; в спарклер?

Вот мой пример my_df < - data.frame (letters_col = sample (letters, 50, replace = TRUE), numbers_col = rnorm (100), stringsAsFactors = FALSE)% >% ...

sparklyr dplyr apache-spark r apache-spark-sql

вопрос задан: 1 February 2019 03:19

1

ответ

Запретить вывод результатов из структурированного потока в Spark Shell

В настоящее время я пытаюсь использовать структурированную потоковую передачу в Scala Spark Shell. Моя проблема в том, что он постоянно пишет сообщения о прогрессе, которые я не могу скрыть. Примерно так: [Этап 5: =================== ...

apache-spark spark-structured-streaming

вопрос задан: 28 January 2019 18:55

1

ответ

Как найти размер кадра данных в заданиях потоковой передачи

Я пытаюсь найти размер информационного кадра в заданиях потоковой передачи в каждой партии. Я могу найти размер в пакетных заданиях успешно, но когда дело доходит до потокового я не могу сделать

python scala apache-spark spark-structured-streaming

вопрос задан: 28 January 2019 18:43

1

ответ

Несоответствие типов в Scala при работе с картой

Я пытаюсь выполнить операцию отображения на Spark DStream в приведенном ниже коде: val hashesInRecords: DStream [(RecordKey, Array [Int])] = records.map (record = > {val hashes: List [Int] = calculateIndexing (. ..

spark-streaming apache-spark scala

вопрос задан: 28 January 2019 18:05

1

ответ

Как исправить пустой вывод для кода textfilestream

объект abc {def main (args: Array [String]) = {m ()} def m () {val spark = SparkSession.builder.appName ("ola"). master ("local [*]"). getOrCreate val sc = spark.sparkContext val ...

spark-streaming apache-spark scala

вопрос задан: 28 January 2019 18:05

1

ответ

Действие Oozie Spark (Содержит HiveContext) Предоставление java.lang.OutOfMemoryError: PermGen space

Я пытаюсь запустить автономное приложение Spark-Scala в Oozie. Обратите внимание, что я использую CDH5.13 Quickstart VM с 20 ГБ ОЗУ (содержит Cloudera Manager, HUE ... и я обновил Java с 7 до 8). ...

out-of-memory apache-spark sbt oozie hivecontext

вопрос задан: 23 January 2019 20:22

1

ответ

Проблемы производительности Spark Scala с командами take и InsertInto

Пожалуйста, посмотрите на прикрепленный скриншот. Я пытаюсь улучшить производительность своей искровой работы, и она занимает почти 5 минут, чтобы выполнить действие на фрейме данных. Я использую взять для изготовления ...

scala apache-spark

вопрос задан: 23 January 2019 15:33

1

ответ

Самый быстрый и эффективный способ итерации большого набора данных в Java Spark

Я преобразую набор искровых данных в список хеш-карт, используя следующий подход. Моя конечная цель - создать либо список объектов json, либо список хеш-карт. Я выполняю этот код на 3,2 миллиона строк ...

java apache-spark iteration apache-spark-dataset

вопрос задан: 21 January 2019 15:18

1

ответ

Функция оценки времени выполнения не работает с наборами данных / RDD Spark

У меня есть искровое приложение. Мой пример использования - позволить пользователям определять произвольную функцию, которая выглядит как Record = > Записать как «правило», которое будет применяться к каждой записи RDD / Dataset. После ...

scala apache-spark rdd

вопрос задан: 21 January 2019 08:38

1

ответ

Как мы можем сравнить два фрейма данных в spark scala, чтобы найти разницу между этими двумя файлами, какой столбец ?? а стоимость?

У меня есть два файла, и я создал два кадра данных prod1 и prod2 из него. Мне нужно найти записи с именами столбцов и значениями, которые не совпадают в обоих dfs. id_sk является первичным ключом. все ...

apache-spark dataframe rdd scala

вопрос задан: 20 January 2019 12:09

1

ответ

Как в приложении Spark создать CSV-файл из DataFrame (Scala)?

Мой следующий вопрос не нов, но я хочу понять, как сделать это шаг за шагом. В приложении Spark создаю DataFrame. Давайте назовем это df. Версия Spark: 2.4.0 val df: DataFrame = Seq (("...

apache-spark scala

вопрос задан: 20 January 2019 07:02

1

ответ

DataFrame и DataSet - преобразование значений в < k, v > пара

Образец ввода (черный текст) и вывод (красный текст) У меня есть DataFrame (один в черном), как я могу преобразовать его в один, как в красном? (номер столбца, значение) [Изображение прилагается] val df = ...

apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 20 January 2019 05:42

1

ответ

Ошибка использования встроенной функции python abs в pyspark-2.3

Я пытался преобразовать отрицательное число в положительное, используя встроенную в Python функцию abs в pyspark shell-2.3. numb = -2 print (abs (numb)) Это выдает мне странную ошибку: py4j.protocol.Py4JError: An ...

python apache-spark pyspark pyspark-sql

вопрос задан: 19 January 2019 22:53

1

ответ

Объединение дубликатов столбцов в seq json hdfs файлах в spark

Я читаю seq json-файл из HDFS с использованием spark следующим образом: val data = spark.read.json (spark.sparkContext.sequenceFile [String, String] ("/ prod / data / class1 / 20190114/2019011413 / class2 / part- *").карта{ ...

apache-spark apache-spark-sql

вопрос задан: 19 January 2019 19:52

1

ответ

как получить доступ к СДР в другом СДР?

У меня есть 2 RDD (в pyspark) в форме rdd1 = (id1, value1) и rdd2 = (id2, value2), где id уникальны (т.е. все id1 отличаются от id2). у меня есть третий СДР в форме resultRDD = ((id1, id2), value3). ...

python apache-spark pyspark

вопрос задан: 19 January 2019 12:03

1

ответ

Задание Spark не работает, когда JAR находится в HDFS

Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS. JAR присутствует в папке HDFS, и он работает нормально, когда я запускаю его в локальном режиме. Ниже ...

apache-spark hdfs spark-submit

вопрос задан: 19 January 2019 12:03

1

ответ

PySpark проблемы с загрузкой непригодного объекта модели

Я играл с функциями сохранения и загрузки моделей pyspark.ml.classification. Я создал экземпляр RandomForestClassifier, установил значения для пары параметров и вызвал сохранение ...

apache-spark pyspark apache-spark-ml

вопрос задан: 19 January 2019 09:44

1

ответ

Скала повторной сортировки в результате

У меня есть СДР, содержащая «Заказчик», «Потраченные суммы». Я пытаюсь выполнить простую сортировку по заказу от "Amt Spent". Когда я просматриваю результаты, я вижу, что происходит множественная сортировка. Мой код: val sc = new ...

scala apache-spark

вопрос задан: 19 January 2019 03:49

1

ответ

Обратное содержимое поля в кадре данных с использованием scala

Я использую Scala. У меня есть датафрейм с миллионами строк и несколькими полями. Одним из полей является строковое поле, содержащее такую вещь: "Snow_KC Bingfamilies Conference_610507" Как мне ...

reverse apache-spark scala

вопрос задан: 18 January 2019 23:07

1

ответ

Переименовать ключ во вложенной схеме Spark DataFrame (Scala)

У меня есть сценарий использования, который должен прочитать вложенную схему JSON и записать ее обратно как паркет (моя схема меняется в зависимости от дня, когда я читаю данные, поэтому я заранее не знаю точную схему), поскольку в ...

scala apache-spark schema parquet

вопрос задан: 18 January 2019 21:28

1

ответ

значение, определенное в & ldquo; структуре if-else & rdquo; не найден за пределами структуры & ldquo; if-else & rdquo;

В следующем коде я ожидал, что компилятор определит, что выходные данные определены либо в разделе if, либо в разделе else. val df1 = spark.createDataFrame (Seq ((1, 10), (2, 20))) ....

scala apache-spark

вопрос задан: 18 January 2019 16:12

1

ответ

Как добавить схему в файл из другого файла в spark Scala

Я работаю в Spark и использую Scala. У меня есть два CSV-файла, один с именами столбцов, а другой с данными, как я могу объединить их оба, чтобы я мог создать результирующий файл со схемой ...

sql scala apache-spark hadoop

вопрос задан: 18 January 2019 12:18

1

ответ

Правильное объединение DataFrame в Spark?

Я новичок в Spark Framework и мне нужна помощь! Предположим, что первый DataFrame (df1) хранит время, когда пользователи получают доступ к колл-центру. + --------- + ------------------- + | USER_NAME | ...

scala apache-spark java

вопрос задан: 18 January 2019 11:34

1

ответ

читать файлы с текущей даты минус 90 дней в спарке

Я читаю все один за другим файлы, которые хранятся в структуре каталогов как YY = 18 / MM = 12 / DD = 10, и мне нужно читать только текущую дату минус 60 дней. Файлы будут создаваться на каждый день и ...

scala apache-spark apache-spark-sql

вопрос задан: 18 January 2019 11:33

1

ответ

Как заставить PySpark работать на кластере Google Cloud Dataproc

У меня есть ряд вопросов (извините, документация Google ужасна и не удобна для пользователя): что эквивалентно Amazon EMR в Google Cloud, Dataproc? Я использую эту документацию для запуска Spark ...

google-cloud-dataproc google-cloud-platform google-cloud-storage apache-spark

вопрос задан: 18 January 2019 11:24

1

ответ

Возможно ли в Zeppelin продолжать работать с двумя параграфами параллельно?

В основном я хочу, чтобы программа Spark постоянно обновляла дисплей. Абзац дисплея будет написан в угловом. Теперь есть способ сохранить пункты Spark и Angular в ...

angularjs apache-spark apache-zeppelin

вопрос задан: 18 January 2019 09:49

1

ответ

Используйте лаг в spark sql в регистре

У меня есть таблица, как показано ниже. Я хочу добавить столбец seq_group справа на основе значения пребывания в каждой группе элементов. Для каждой группы элементов seq_group начинается с 0 и когда seq_group > 8600 ...

apache-spark apache-spark-sql

вопрос задан: 18 January 2019 09:08

1

ответ

должно ли изменение размера раздела влиять на вывод запроса?

Я практикую некоторые примеры из книги по Spark. В одном из примеров я прочитал некоторые данные из файлов .csv val staticDataFrame = spark.read.format ("csv") .option ("header", "true") .option ("...

apache-spark

вопрос задан: 18 January 2019 06:07