6
ответов

Spark Streaming с защищенной IBM MQ [дубликат]

Мы установили соединение с IBM MQ для приема сообщений с использованием Spark Streaming с использованием SSL, при запуске на YARN, когда-то он работает нормально, но в следующий раз сталкивается с проблемой ниже. java.lang ....
вопрос задан: 14 January 2017 23:28
4
ответа

Spark Streaming: Что именно делает transform ()? [Дубликат]

Я пробовал искать различные учебники, но не мог правильно понять, как именно преобразование () работает в искровом потоке. Что определяет RDD-to-RDD, как указано в документе Spark Streaming? Когда я должен ...
вопрос задан: 23 August 2015 14:57
3
ответа

ssc.filestream не может прочитать уже существующие файлы в каталоге [duplicate]

Я запускаю программу искрообразования, которая может контролировать и читать файлы из каталога HDFS. Однако я не мог читать уже существующие файлы в каталоге HDFS, если я запускаю streamig для ...
вопрос задан: 14 March 2015 11:04
2
ответа

Spark Counter: Main method / extends Приложение предоставляет разные результаты для одного приложения, почему это так? [Дубликат]

У меня есть файл, в котором есть некоторые отсутствующие данные. Поэтому я пытаюсь определить количество отсутствующих записей, используя переменную счетчика. Файл: data-error.csv ...
вопрос задан: 9 July 2015 12:33
2
ответа

Я получаю ошибку & ldquo; В этом RDD отсутствует SparkContext & rdquo; когда я вызываю преобразования или действия [duplicate]

Вероятно, основной вопрос, я довольно новичок в Spark / Scala. Поэтому у меня есть переменная типа Map [String, RDD [Int]]. Я не могу перебирать эту переменную с помощью и делать что-либо с RDD внутри ...
вопрос задан: 23 April 2015 06:55
1
ответ

Как использовать createpairedStream в MQTTUtils?

Я не могу использовать MQTTUtils.createPairedStream () в Scala? Как указать список тем в качестве параметров? Я перепробовал все способы, такие как словарь, список, кортежи, но это не сработало. И затем я ...
вопрос задан: 5 March 2019 10:14
1
ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня есть следующий код pyspark, который я использую для чтения файлов журнала из каталога logs /, а затем сохраняю результаты в текстовый файл, только когда в нем есть данные ... другими словами, когда RDD не пуст. ...
вопрос задан: 28 February 2019 17:39
1
ответ

Spark структурированный поток: java.lang.NoClassDefFoundError для GroupStateTimeout [дубликат]

Я пытаюсь использовать mapGroupsWithState в структурированной потоковой передаче, как определено в https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.streaming.GroupState Я понимаю ...
вопрос задан: 21 February 2019 03:39
1
ответ

Несоответствие типов в Scala при работе с картой

Я пытаюсь выполнить операцию отображения на Spark DStream в приведенном ниже коде: val hashesInRecords: DStream [(RecordKey, Array [Int])] = records.map (record = > {val hashes: List [Int] = calculateIndexing (. ..
вопрос задан: 28 January 2019 18:05
1
ответ

Как исправить пустой вывод для кода textfilestream

объект abc {def main (args: Array [String]) = {m ()} def m () {val spark = SparkSession.builder.appName ("ola"). master ("local [*]"). getOrCreate val sc = spark.sparkContext val ...
вопрос задан: 28 January 2019 18:05
1
ответ

Kafka Direct Stream в DataFrame не работает с окном

У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache.spark: spark-streaming-kafka-0-10_2.11: 2.3.1. stream.window (минуты (5), секунды (20)). foreachRDD {rdd ...
вопрос задан: 16 January 2019 08:41
1
ответ

Spark Streaming с Kafka: AvroRunTimeException с наличием латинских символов

Я пытаюсь прочитать данные из темы Кафки, которая сериализуется в формате Avro, в приложении Spark Streaming. Я получаю ниже исключения при преобразовании из байта [] в GenericRecord. Я попытался ...
вопрос задан: 13 July 2018 16:35
1
ответ

Pyspark: Исключения с простейшим примером структурированного потока [дубликат]

В начале руководства по структурированному потоковому потоку есть пример потокового примера World Count. Во-первых, мы выполняем nc -lk 8888 в отдельном терминале. Далее, следуя руководству Python ...
вопрос задан: 22 April 2018 02:35
1
ответ

Как я могу сделать DStream после использования foreachrdd ()? [Дубликат]

Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..
вопрос задан: 6 January 2017 15:26
1
ответ

scala, избегайте дважды читать файл, используя dataframe [duplicate]

Я использую искру scala, чтобы прочитать большой json-файл и подтолкнуть его к elasticsearch. Я использовал dataFrame для чтения файла val df = spark.read.json (args (0)). Мне удалось передать данные в elasticsearch, но ...
вопрос задан: 12 August 2016 18:47
1
ответ

Как преобразовать один столбец (тип UDO) в несколько столбцов в Spark [duplicate]

У меня есть один столбец с типом UDO (пользовательский класс). Я просто хочу преобразовать его в несколько столбцов (извлеките некоторые поля в виде отдельных столбцов). Как я могу это достичь? класс A {int x; DateTime y; B z;} ...
вопрос задан: 23 November 2015 20:38
1
ответ

Запросить внешний фрейм данных в карте Spark Streaming или foreachRDD [дубликат]

Я пытаюсь изучить Spark, и у меня возникают проблемы с потоком Apache Spark. У меня есть dataRrame userRecs со списком фильмов, рекомендованных для каждого UserID и другого фреймворка dfMovies с помощью ...
вопрос задан: 17 September 2015 00:54
0
ответов

Нужно добавить 24-часовой счетчик к коду

У меня есть текущий код, который будет подсчитывать количество людей, входящих в торговый центр, т.е. live-count.Now я установил счетчик на ноль, когда он достигает 10 часов утра в метке времени в моих входных данных. Вот образец ...
вопрос задан: 14 April 2019 10:42
0
ответов

Как использовать не основанное на времени окно с искровой структурой потоковой передачи данных?

Я пытаюсь использовать окно структурированной потоковой передачи с искрой и кафкой. Я использую окно для данных, не основанных на времени, поэтому я получаю эту ошибку: «Не потоковые окна не поддерживаются при потоковой передаче данных DataFrames / ...
вопрос задан: 9 April 2019 11:26
0
ответов

Как обработать входной DStream, разделив его на RDD для печати сообщений Kafka?

Я создаю Spark Streaming Application и хочу обрабатывать каждое сообщение Кафки отдельно. Сейчас я хочу просто записать значения сообщений, чтобы проверить, что все работает. Но когда я пытаюсь напечатать ...
вопрос задан: 1 April 2019 22:03
0
ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как мне периодически выполнять неблокирующий запрос MSCK REPAIR TABLE database.table? Поддерживает ли Spark Streaming это изначально или я должен полагаться на модуль потоков Python? У меня есть ...
вопрос задан: 27 March 2019 15:38
0
ответов

Spark Streaming с окном из N элементов

В Spark Streaming, используя Scala или Java, как получить поток, который всегда содержит самые последние N элементов? Я знаком с возможностью создания оконных потоков, используя такие методы, как ...
вопрос задан: 27 March 2019 07:45
0
ответов

Как поддержать writeStream в источнике данных v2 (spark 2.3.1)

Я пишу источник данных spark v2 в spark 2.3, и я хочу поддерживать writeStream. Что я должен сделать, чтобы сделать это? мой класс defaultSource: класс MyDefaultSource расширяет DataSourceV2 с помощью ReadSupport ...
вопрос задан: 24 March 2019 20:24
0
ответов

Преобразование с сохранением состояния на одном кадре данных в потоковой передаче Spark

Я пытаюсь определить статус завершения на разных уровнях детализации. Например, регион является «полным», если все города в этом регионе являются полными. Я поддерживаю государство на самом низком уровне (город) ...
вопрос задан: 13 March 2019 17:39
0
ответов

Почему rdd всегда пуст во время загрузки данных Кафки в реальном времени в HBase через PySpark?

В соответствии с этим руководством я пытаюсь выполнить в реальном времени ввод данных Kafka в HBase через PySpark. Кажется, все работает нормально. Я запускаю Кафку Судо /usr/local/kafka/bin/kafka-server-start.sh / ...
вопрос задан: 4 March 2019 20:49
0
ответов

В чем разница между DStream и Seq [RDD]?

Определение DStream из состояний документации, Discretized Stream или DStream является основной абстракцией, предоставляемой Spark Streaming. Он представляет собой непрерывный поток данных, либо ...
вопрос задан: 3 March 2019 10:09
0
ответов

Суррогатный ключ в пакете Spark или Streaming

У меня есть сценарий использования для генерации суррогатного ключа (уникального и с шагом 1) для каждой записи, которую я вставляю в таблицу Hive с помощью программы Spark Streaming. Ключ никогда не может быть повторен, даже программа ...
вопрос задан: 28 January 2019 18:51
0
ответов

не могу остановить предварительную загрузку сообщений kafka потребителю

Я использую kafka spark Direct API, чтобы использовать тему кафки. Когда нагрузка высока, моя искровая работа не поглощает сразу все незафиксированные сообщения, а потребляет небольшие партии за другой. Что вызывает ...
вопрос задан: 20 January 2019 00:07
0
ответов

Сортировка JavaPairDStream

Я пытаюсь извлечь самые популярные хэштеги через TwitterAPI. Код ниже работает, но только потому, что я не вызвал печать на sortedSwappedHashtagCount: import org.apache.spark.SparkConf; ...
вопрос задан: 19 January 2019 17:03
0
ответов

Ошибка SparkStreaming в простом примере: java.lang.IllegalArgumentException

Я пытаюсь реализовать простой пример подсчета слов для sparkStreaming, прослушивая localhost: 9999 и отправляя потоки текста, используя nc -lk 9999. Я не реализовал логику подсчета слов ...
вопрос задан: 19 January 2019 16:46