apache-spark - список вопросов по программированию apache-spark

7

ответов

Почему spark-submit и spark-shell не работают с & ldquo; Не удалось найти JAR сборки Spark. Вам нужно собрать Spark перед запуском этой программы. & Rdquo ;?

Я пытался запустить spark-submit, и я получил сообщение «Не удалось найти JAR сборки Spark. Вам нужно собрать Spark перед запуском этой программы». Когда я пытаюсь запустить spark-shell, я получаю ту же ошибку. Что я ...

apache-spark

вопрос задан: 23 December 2014 17:23

7

ответов

Как распечатать вывод collectNeighbors / collectComponents в GraphX? [Дубликат]

Я понимаю, что это очень простой вопрос, но я попытался найти его в документации и в других ответах, и я просто не могу заставить его работать. Я пытаюсь использовать CollectNeighbors в ...

apache-spark printing spark-graphx

вопрос задан: 15 July 2013 16:25

6

ответов

Pyspark: экспортировать искробезопасный фрейм в конкретный локальный файл csv в Spark Standalone [дубликат]

Я пытаюсь изучить pyspark 2.3.1. Я пытаюсь написать dataframe в один CSV-файл. Это мой код: из pyspark.sql импортировать SparkSession из pyspark.sql import Row из pyspark.sql ....

python-2.7 apache-spark pyspark

вопрос задан: 13 January 2018 03:50

6

ответов

Spark Streaming с защищенной IBM MQ [дубликат]

Мы установили соединение с IBM MQ для приема сообщений с использованием Spark Streaming с использованием SSL, при запуске на YARN, когда-то он работает нормально, но в следующий раз сталкивается с проблемой ниже. java.lang ....

java apache-spark ssl spark-streaming ibm-mq

вопрос задан: 14 January 2017 23:28

6

ответов

Как создать DF с условными предложениями [duplicate]

Это оригинальный ключ данных val =================== 1 a 2 b 3 c 1 b 2 b 3 a, и я хочу это сделать. key count_a ...

scala apache-spark apache-spark-sql spark-dataframe

вопрос задан: 10 November 2015 14:43

6

ответов

Поворот, группировка и частота в Пейспарке Dataframe [дубликат]

У меня есть таблица, которая выглядит так, как показано ниже. ++++++++++++++ col1 | col2 | ++++++++++++++ 1 | A | 1 | A | 2 | B | Я хочу найти частоту и поворот таблицы ...

python apache-spark dataframe pyspark

вопрос задан: 10 November 2015 14:43

6

ответов

Pyspark: динамическое добавление столбцов в фрейм данных [дубликат]

У меня длинный csv, содержащий несколько связанных записей, например: group | item ------------ A 1 A 2 A 3 B 1 B 2 B 4 Список уникальных / отдельных элементов ...

apache-spark pyspark

вопрос задан: 10 November 2015 14:43

6

ответов

Spark - Запись в csv приводит к _temporary file [duplicate]

Я запускаю работу на 2 машины 2.1.0 Spark cluster. Я пытаюсь сохранить Dataframe в CSV-файл (или несколько, это не имеет значения). Когда я использую: df.write .options (options) .csv (finalPath) ...

scala csv apache-spark export-to-csv

вопрос задан: 7 May 2015 08:03

6

ответов

Каков правильный способ чтения JScript-файла Spark Session? [Дубликат]

Я работаю над приложением SpringBoot, которому необходимо подключиться к локальному экземпляру Spark 2.2.1 (Docker), прочитать простой json-файл и отобразить его в журнале. Я создал файл /tmp/people.json: ls -l / ...

apache-spark spring-boot apache-spark-sql

вопрос задан: 14 July 2014 12:42

6

ответов

Разъяснения по памяти кучи памяти [дубликат]

Кадры данных в искры Apache используют память кучи для хранения данных. Какова основная цель использования памяти кучи? В настоящее время я понимаю, что полезно хранить большие объекты (изменяемые или ...

java apache-spark dataframe garbage-collection jvm

вопрос задан: 23 May 2011 00:56

6

ответов

Сравнение производительности Экономии, Буферов Протокола, JSON, EJB, другого?

Мы изучаем решения для транспорта/протокола и собирались сделать различные тесты производительности, таким образом, я думал, что согласую с сообществом, если они уже сделали это: Имеет любого сделанный сервер...

apache-spark

вопрос задан: 17 August 2009 23:41

5

ответов

Записать Spark DF в файл csv с массивом & lt; string & gt; тип данных [дубликат]

Я пытаюсь написать искру DF с массивом строки в файл csv, я следил за инструкциями, представленными на этом сайте. Но мой столбец также содержит нули. Как я могу обрабатывать нули и писать ...

apache-spark spark-csv

вопрос задан: 16 February 2017 10:57

5

ответов

spark-streaming-kafka не работает с scala-library [duplicate]

Я пытаюсь настроить интеграцию kafka_2.11-1.1.0 с помощью spark-2.2.0. Согласно официальным документам отсюда https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html У меня есть ...

apache-spark apache-kafka

вопрос задан: 14 January 2017 23:28

5

ответов

Как разрешить ошибку scala.Predef $ .augmentString в интеграции apache spark-apache cassandra? [Дубликат]

Я пытаюсь интегрировать искру apache с apache cassandra. Но я получаю ошибку ниже, когда я даже пытаюсь инициализировать sparkconf. SparkConf sparkConf = новый SparkConf (). SetMaster ("local") ....

scala apache-spark cassandra spark-cassandra-connector

вопрос задан: 14 January 2017 23:28

5

ответов

Ошибка при создании экземпляра «org.apache.spark.sql.hive.HiveSessionStateBuilder» - попытка запуска Spark Session с поддержкой поддержки Hive [duplicate]

Ошибка при запуске фляги с искровым сеансом с поддержкой поддержки улей. Функциональность jar состоит в том, чтобы читать из Hive и возвращает набор Dataset, содержащий записи. В коде используется Spark Session ...

apache-spark hive hortonworks-data-platform apache-tez

вопрос задан: 14 January 2017 23:28

5

ответов

ОШИБКА Исполнитель: Исключение в задаче 0.0 на этапе 0.0 (TID 0) java.lang.ClassNotFoundException: scala.None [duplicate]

ОШИБКА: Получение следующей ошибки при попытке запустить искровую программу, пытающуюся получить доступ к кассандре, написанной на scala, ввести описание ссылки здесь. Командная строка Ubuntu EXCEPTION: 18/06/03 17: ...

scala apache-spark cassandra spark-cassandra-connector

вопрос задан: 14 January 2017 23:28

5

ответов

Исключение в thread & ldquo; main & rdquo; java.lang.NoClassDefFoundError: org / kie / api / KieServices $ Factory [duplicate]

Я создал проект java-проекта spark maven в eclipse. Я добавил все двоичные ключи слюни как внешние банки. в моем pom.xml я определил ниже зависимости для слюни. pom.xml & lt; dependency & gt; ...

java eclipse maven apache-spark drools

вопрос задан: 14 January 2017 23:28

5

ответов

Не удалось получить имена фактических столбцов из файла ORC в Spark [duplicate]

Мы запускаем два кластера Hadoop, на котором работает только Hive, а другой работает только Spark. Теперь я пытаюсь прочитать таблицу улья, читая файлы ORC непосредственно в искровом режиме. sparkSession.read.orc (...

apache-spark hadoop hive apache-spark-sql

вопрос задан: 10 October 2016 12:45

5

ответов

Каково главное преимущество использования Coalesce в Spark, кроме сокращения разделов [duplicate]

Все зависит от оптимизации производительности или чего-то еще, подобного уменьшению количества разделов.

apache-spark

вопрос задан: 17 August 2016 18:04

5

ответов

Извлечь дату из unix_timestamp, которая находится в строчном формате Apache Spark? [Дубликат]

У меня есть таблица с меткой времени в строчном формате «1504856248587», я хочу преобразовать ее в формат даты «2017-09-08». Как я могу использовать API-интерфейс spark-scala?

scala apache-spark

вопрос задан: 9 March 2016 05:29

5

ответов

Как добавить поддержку pystack kafka? [Дубликат]

Я хотел бы запустить некоторый скрипт pystack с поддержкой kafka, например https://github.com/apache/spark/blob/v2.2.1/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py. Я знаю, что я можешь использовать ...

python apache-spark apache-kafka

вопрос задан: 3 March 2016 20:41

5

ответов

Spark - исправить - отправить ошибку локального и прямого импорта [дубликат]

Процесс успешно выполняется с помощью spark-submit --master local [*] script.py Я установил следующие переменные: export PYSPARK_PYTHON = / usr / bin / python export PYSPARK_DRIVER_PYTHON = / usr / bin / python ...

python apache-spark pyspark

вопрос задан: 5 February 2016 01:25

5

ответов

искровый случай класс udf выход как dataframe [дубликат]

У меня есть udf, который извлекает геополя из ip-адреса. ниже - класс кода фрагмента кода IpLocation (countryName: String, region: String, city: String, postalCode: String, широта: String, longitude: ...

scala apache-spark apache-spark-sql user-defined-functions

вопрос задан: 26 October 2015 13:04

5

ответов

Прочитайте файл паркета на несколько разделов [duplicate]

Я использую Spark 1.2.1 (Ancient, я знаю, но это то, что я могу использовать на данный момент.) И пытаясь прочитать файл паркета размером около 4,5 ГБ с помощью sparksql, как это (я буду избегать шаблона) val schemaRDD: ...

scala apache-spark apache-spark-sql rdd

вопрос задан: 3 December 2014 18:02

5

ответов

Подавлять только журналы библиотек искры [дублировать]

Я использую slf4j с искру (scala). Я знаю, что могу подавить журнал библиотеки искривления, используя spark.sparkContext.setLogLevel («WARN»). Однако, когда я делаю это все мои собственные журналы, которые используют logger.info ...

scala apache-spark logging slf4j

вопрос задан: 2 December 2014 13:03

5

ответов

Вывод функции foreach на Spark DataFrame [дубликат]

Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...

apache-spark pyspark spark-dataframe rdd

вопрос задан: 13 August 2014 21:13

5

ответов

как работать с классом case более 22 полей в scala 2.10.5 [duplicate]

Я использую scala 2.10.5 и имею таблицу cassandra, которая имеет более 22 столбцов. Поэтому я хочу создать класс case с более чем 22 полями и преобразовать его в DF и применить ...

scala apache-spark cassandra

вопрос задан: 28 November 2013 07:32

5

ответов

конвертировать позиционированный файл, имеет 150 столбцов в трубку dlimited [duplicate]

У меня есть требование работать с позиционным файлом, который имеет 150 столбцов. Я попытался решить эту проблему с помощью подстроки, val inputFile = sc.textFile ("hdsf: // ....") inputFile.map (x = & gt; (x ....

apache-spark

вопрос задан: 28 November 2013 07:32

4

ответа

Как сохранить данные в формате текстового файла GZ в pyspark? ((Но не в формате csv) [дублировать]

У меня есть фрейм данных, как показано ниже + ------- + ------ + ---- + ---- + | | b | c | d | + ------- + ----------- + ---- + | 101 | 244 | 4 | 1 | | 101 | 245 | 5 | 0 | | 101 | 313 | 2 | 0 | | ...

apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 28 November 2016 21:06

4

ответа

Как я & ldquo; un & rdquo; -explode Spark dataframe [duplicate]

Я знаю, как превратить Dataframe Df_Nested в Df_Table, применив функцию «взорвать» val Df_Table = Df_Nested.withColumn («ckey», explode (Df_Table («ckey_group»)) ....

apache-spark spark-dataframe

вопрос задан: 10 June 2016 00:17