spark-streaming - список вопросов по программированию spark-streaming

6

ответов

Spark Streaming с защищенной IBM MQ [дубликат]

Мы установили соединение с IBM MQ для приема сообщений с использованием Spark Streaming с использованием SSL, при запуске на YARN, когда-то он работает нормально, но в следующий раз сталкивается с проблемой ниже. java.lang ....

вопрос задан: 14 January 2017 23:28

4

ответа

Spark Streaming: Что именно делает transform ()? [Дубликат]

Я пробовал искать различные учебники, но не мог правильно понять, как именно преобразование () работает в искровом потоке. Что определяет RDD-to-RDD, как указано в документе Spark Streaming? Когда я должен ...

apache-spark spark-streaming

вопрос задан: 23 August 2015 14:57

3

ответа

ssc.filestream не может прочитать уже существующие файлы в каталоге [duplicate]

Я запускаю программу искрообразования, которая может контролировать и читать файлы из каталога HDFS. Однако я не мог читать уже существующие файлы в каталоге HDFS, если я запускаю streamig для ...

apache-spark hadoop spark-streaming

вопрос задан: 14 March 2015 11:04

2

ответа

Spark Counter: Main method / extends Приложение предоставляет разные результаты для одного приложения, почему это так? [Дубликат]

У меня есть файл, в котором есть некоторые отсутствующие данные. Поэтому я пытаюсь определить количество отсутствующих записей, используя переменную счетчика. Файл: data-error.csv ...

scala apache-spark spark-streaming

вопрос задан: 9 July 2015 12:33

2

ответа

Я получаю ошибку & ldquo; В этом RDD отсутствует SparkContext & rdquo; когда я вызываю преобразования или действия [duplicate]

Вероятно, основной вопрос, я довольно новичок в Spark / Scala. Поэтому у меня есть переменная типа Map [String, RDD [Int]]. Я не могу перебирать эту переменную с помощью и делать что-либо с RDD внутри ...

scala apache-spark spark-streaming rdd

вопрос задан: 23 April 2015 06:55

1

ответ

Как использовать createpairedStream в MQTTUtils?

Я не могу использовать MQTTUtils.createPairedStream () в Scala? Как указать список тем в качестве параметров? Я перепробовал все способы, такие как словарь, список, кортежи, но это не сработало. И затем я ...

scala apache-spark spark-streaming mqtt apache-bahir

вопрос задан: 5 March 2019 10:14

1

ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня есть следующий код pyspark, который я использую для чтения файлов журнала из каталога logs /, а затем сохраняю результаты в текстовый файл, только когда в нем есть данные ... другими словами, когда RDD не пуст. ...

python-3.x apache-spark pyspark spark-streaming

вопрос задан: 28 February 2019 17:39

1

ответ

Spark структурированный поток: java.lang.NoClassDefFoundError для GroupStateTimeout [дубликат]

Я пытаюсь использовать mapGroupsWithState в структурированной потоковой передаче, как определено в https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.streaming.GroupState Я понимаю ...

apache-spark spark-streaming spark-structured-streaming

вопрос задан: 21 February 2019 03:39

1

ответ

Несоответствие типов в Scala при работе с картой

Я пытаюсь выполнить операцию отображения на Spark DStream в приведенном ниже коде: val hashesInRecords: DStream [(RecordKey, Array [Int])] = records.map (record = > {val hashes: List [Int] = calculateIndexing (. ..

spark-streaming apache-spark scala

вопрос задан: 28 January 2019 18:05

1

ответ

Как исправить пустой вывод для кода textfilestream

объект abc {def main (args: Array [String]) = {m ()} def m () {val spark = SparkSession.builder.appName ("ola"). master ("local [*]"). getOrCreate val sc = spark.sparkContext val ...

spark-streaming apache-spark scala

вопрос задан: 28 January 2019 18:05

1

ответ

Kafka Direct Stream в DataFrame не работает с окном

У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache.spark: spark-streaming-kafka-0-10_2.11: 2.3.1. stream.window (минуты (5), секунды (20)). foreachRDD {rdd ...

scala apache-spark spark-streaming rdd

вопрос задан: 16 January 2019 08:41

1

ответ

Spark Streaming с Kafka: AvroRunTimeException с наличием латинских символов

Я пытаюсь прочитать данные из темы Кафки, которая сериализуется в формате Avro, в приложении Spark Streaming. Я получаю ниже исключения при преобразовании из байта [] в GenericRecord. Я попытался ...

apache-kafka spark-streaming avro

вопрос задан: 13 July 2018 16:35

1

ответ

Pyspark: Исключения с простейшим примером структурированного потока [дубликат]

В начале руководства по структурированному потоковому потоку есть пример потокового примера World Count. Во-первых, мы выполняем nc -lk 8888 в отдельном терминале. Далее, следуя руководству Python ...

python apache-spark pyspark spark-streaming structured-streaming

вопрос задан: 22 April 2018 02:35

1

ответ

Как я могу сделать DStream после использования foreachrdd ()? [Дубликат]

Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..

scala apache-spark dataframe spark-streaming apache-spark-mllib

вопрос задан: 6 January 2017 15:26

1

ответ

scala, избегайте дважды читать файл, используя dataframe [duplicate]

Я использую искру scala, чтобы прочитать большой json-файл и подтолкнуть его к elasticsearch. Я использовал dataFrame для чтения файла val df = spark.read.json (args (0)). Мне удалось передать данные в elasticsearch, но ...

scala apache-spark elasticsearch spark-streaming

вопрос задан: 12 August 2016 18:47

1

ответ

Как преобразовать один столбец (тип UDO) в несколько столбцов в Spark [duplicate]

У меня есть один столбец с типом UDO (пользовательский класс). Я просто хочу преобразовать его в несколько столбцов (извлеките некоторые поля в виде отдельных столбцов). Как я могу это достичь? класс A {int x; DateTime y; B z;} ...

apache-spark apache-spark-sql spark-streaming

вопрос задан: 23 November 2015 20:38

1

ответ

Запросить внешний фрейм данных в карте Spark Streaming или foreachRDD [дубликат]

Я пытаюсь изучить Spark, и у меня возникают проблемы с потоком Apache Spark. У меня есть dataRrame userRecs со списком фильмов, рекомендованных для каждого UserID и другого фреймворка dfMovies с помощью ...

python apache-spark pyspark spark-streaming

вопрос задан: 17 September 2015 00:54

0

ответов

Нужно добавить 24-часовой счетчик к коду

У меня есть текущий код, который будет подсчитывать количество людей, входящих в торговый центр, т.е. live-count.Now я установил счетчик на ноль, когда он достигает 10 часов утра в метке времени в моих входных данных. Вот образец ...

java spark-streaming

вопрос задан: 14 April 2019 10:42

0

ответов

Как использовать не основанное на времени окно с искровой структурой потоковой передачи данных?

Я пытаюсь использовать окно структурированной потоковой передачи с искрой и кафкой. Я использую окно для данных, не основанных на времени, поэтому я получаю эту ошибку: «Не потоковые окна не поддерживаются при потоковой передаче данных DataFrames / ...

pyspark apache-spark-sql spark-streaming

вопрос задан: 9 April 2019 11:26

0

ответов

Как обработать входной DStream, разделив его на RDD для печати сообщений Kafka?

Я создаю Spark Streaming Application и хочу обрабатывать каждое сообщение Кафки отдельно. Сейчас я хочу просто записать значения сообщений, чтобы проверить, что все работает. Но когда я пытаюсь напечатать ...

scala apache-spark apache-kafka spark-streaming

вопрос задан: 1 April 2019 22:03

0

ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как мне периодически выполнять неблокирующий запрос MSCK REPAIR TABLE database.table? Поддерживает ли Spark Streaming это изначально или я должен полагаться на модуль потоков Python? У меня есть ...

apache-spark hive pyspark apache-spark-sql spark-streaming

вопрос задан: 27 March 2019 15:38

0

ответов

Spark Streaming с окном из N элементов

В Spark Streaming, используя Scala или Java, как получить поток, который всегда содержит самые последние N элементов? Я знаком с возможностью создания оконных потоков, используя такие методы, как ...

scala apache-spark spark-streaming

вопрос задан: 27 March 2019 07:45

0

ответов

Как поддержать writeStream в источнике данных v2 (spark 2.3.1)

Я пишу источник данных spark v2 в spark 2.3, и я хочу поддерживать writeStream. Что я должен сделать, чтобы сделать это? мой класс defaultSource: класс MyDefaultSource расширяет DataSourceV2 с помощью ReadSupport ...

apache-spark spark-streaming spark-structured-streaming

вопрос задан: 24 March 2019 20:24

0

ответов

Преобразование с сохранением состояния на одном кадре данных в потоковой передаче Spark

Я пытаюсь определить статус завершения на разных уровнях детализации. Например, регион является «полным», если все города в этом регионе являются полными. Я поддерживаю государство на самом низком уровне (город) ...

scala apache-spark cassandra apache-spark-sql spark-streaming

вопрос задан: 13 March 2019 17:39

0

ответов

Почему rdd всегда пуст во время загрузки данных Кафки в реальном времени в HBase через PySpark?

В соответствии с этим руководством я пытаюсь выполнить в реальном времени ввод данных Kafka в HBase через PySpark. Кажется, все работает нормально. Я запускаю Кафку Судо /usr/local/kafka/bin/kafka-server-start.sh / ...

python apache-spark apache-kafka hbase spark-streaming

вопрос задан: 4 March 2019 20:49

0

ответов

В чем разница между DStream и Seq [RDD]?

Определение DStream из состояний документации, Discretized Stream или DStream является основной абстракцией, предоставляемой Spark Streaming. Он представляет собой непрерывный поток данных, либо ...

apache-spark spark-streaming

вопрос задан: 3 March 2019 10:09

0

ответов

Суррогатный ключ в пакете Spark или Streaming

У меня есть сценарий использования для генерации суррогатного ключа (уникального и с шагом 1) для каждой записи, которую я вставляю в таблицу Hive с помощью программы Spark Streaming. Ключ никогда не может быть повторен, даже программа ...

apache-spark spark-streaming

вопрос задан: 28 January 2019 18:51

0

ответов

не могу остановить предварительную загрузку сообщений kafka потребителю

Я использую kafka spark Direct API, чтобы использовать тему кафки. Когда нагрузка высока, моя искровая работа не поглощает сразу все незафиксированные сообщения, а потребляет небольшие партии за другой. Что вызывает ...

apache-spark apache-kafka spark-streaming

вопрос задан: 20 January 2019 00:07

0

ответов

Сортировка JavaPairDStream

Я пытаюсь извлечь самые популярные хэштеги через TwitterAPI. Код ниже работает, но только потому, что я не вызвал печать на sortedSwappedHashtagCount: import org.apache.spark.SparkConf; ...

lambda spark-streaming apache-spark java

вопрос задан: 19 January 2019 17:03

0

ответов

Ошибка SparkStreaming в простом примере: java.lang.IllegalArgumentException

Я пытаюсь реализовать простой пример подсчета слов для sparkStreaming, прослушивая localhost: 9999 и отправляя потоки текста, используя nc -lk 9999. Я не реализовал логику подсчета слов ...

java apache-spark spark-streaming

вопрос задан: 19 January 2019 16:46