2
ответа

идентификатор группы потребителей по умолчанию в кафке

Я работаю с Kafka 2.11 и довольно новым для него. Я пытаюсь понять группы потребителей kafka, у меня есть 3 горячих приложения, использующих одну и ту же тему, и каждое из них получает все
вопрос задан: 17 January 2019 11:21
1
ответ

Spark Structured Streaming writestream не записывает файл, пока я не остановлю работу

Я использую Spark Structured Streaming для классического варианта использования: я хочу прочитать тему kafka и записать поток в HDFS в формате паркета. Вот мой код: импорт org.apache.spark.sql ....
вопрос задан: 28 February 2019 21:27
1
ответ

Spark структурированный поток: java.lang.NoClassDefFoundError для GroupStateTimeout [дубликат]

Я пытаюсь использовать mapGroupsWithState в структурированной потоковой передаче, как определено в https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.streaming.GroupState Я понимаю ...
вопрос задан: 21 February 2019 03:39
1
ответ

Запретить вывод результатов из структурированного потока в Spark Shell

В настоящее время я пытаюсь использовать структурированную потоковую передачу в Scala Spark Shell. Моя проблема в том, что он постоянно пишет сообщения о прогрессе, которые я не могу скрыть. Примерно так: [Этап 5: =================== ...
вопрос задан: 28 January 2019 18:55
1
ответ

Как найти размер кадра данных в заданиях потоковой передачи

Я пытаюсь найти размер информационного кадра в заданиях потоковой передачи в каждой партии. Я могу найти размер в пакетных заданиях успешно, но когда дело доходит до потокового я не могу сделать
вопрос задан: 28 January 2019 18:43
1
ответ

Как получить агрегированные данные за определенный день в потоковой передаче с искрой

У меня есть одна работа со структурированным паром, которая читает потоки из kafka и записывает вывод в HDFS Моя проблема в том, что мне нужны сводные результаты за весь день до определенного времени. Так как искра структурирована ...
вопрос задан: 19 January 2019 13:05
0
ответов

Как поддержать writeStream в источнике данных v2 (spark 2.3.1)

Я пишу источник данных spark v2 в spark 2.3, и я хочу поддерживать writeStream. Что я должен сделать, чтобы сделать это? мой класс defaultSource: класс MyDefaultSource расширяет DataSourceV2 с помощью ReadSupport ...
вопрос задан: 24 March 2019 20:24
0
ответов

Не удалось найти источник данных: org.apache.bahir.sql.streaming.mqtt.MQTTStreamSourceProvider

Версия spark - 2.3.3. Я хочу подключиться к mqtt с помощью аргумента --packages в bin / spark-shell спарк-оболочки --packages org.apache.bahir: spark-sql-streaming-mqtt_2.11: 2.3 .2 Скала > Импортировать ...
вопрос задан: 22 March 2019 13:11
0
ответов

Как истечь состояние dropDuplicates в структурированной потоковой передаче с помощью оконной функции в Java, чтобы избежать OOM?

Я использую метод dropDuplicates () в Spark Structured Streaming 2.2.1 и мне нужно рабочее решение для использования withWatermark (), чтобы уменьшить состояние. Моя первая попытка достичь этого была ...
вопрос задан: 17 January 2019 07:42
0
ответов

Pyspark Структурированные потоковые динамические раздвижные окна

Я пытаюсь получить максимальное, среднее для всех строк за последние x минут (например, 10 минут) по столбцу s1 относительно столбца времени события. За исключением того, что данные поступают в виде потоков из Кафки. Для каждой входящей строки я ...
вопрос задан: 16 January 2019 00:32