13
ответов

Что такое один бар в python? [Дубликат]

Я читал пример подсчета слов для луча Apache, когда увидел этот код Python p | beam.io.ReadFromText ('gs: //dataflow-samples/shakespeare/kinglear.txt') В этом p уже заданная переменная ...
вопрос задан: 25 October 2014 13:39
2
ответа

Apache Beam: ошибка при назначении времени события с использованием метки времени

У меня есть неограниченный поток Kafka, отправляющий данные со следующими полями {"identifier": "xxx", "value": 10.0, "ts": "2019-01-16T10: 51: 26.326242 + 0000"} Я читаю поток, используя Apache Beam SDK для ...
вопрос задан: 16 January 2019 11:30
1
ответ

Apache Beam для Python коммерчески поддерживает Flink Runner?

Apache Beam для Python сейчас поддерживает Flink Runner? или даже портативный бегун? И поддерживается ли луч для java коммерчески Flink Runner?
вопрос задан: 22 March 2019 08:25
1
ответ

ImportError: нет модуля с именем tennflow_transform.beam

При отправке задания потока данных в GCP я получаю эту ошибку: Traceback (последний вызов был последним): файл "/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py", строка 766, в run self ....
вопрос задан: 18 March 2019 17:46
1
ответ

Как работать с CoderException: не может кодировать пустую строку с Scio

Я только начал использовать scio и dataflow. Попытка моего кода для одного входного файла, работала нормально. Но когда я добавляю больше файлов для ввода, получаю следующее исключение: java.lang.RuntimeException: org.apache.beam ....
вопрос задан: 4 March 2019 19:10
1
ответ

Лучшая практика - запись неограниченной коллекции ПК в корзину GCS с ограниченной учетной записью службы

Попытка сделать мой вопрос как можно более широким: при записи неограниченной PCollection в корзину GCS с использованием TextIO, при этом используя учетную запись службы с принципом наименьших привилегий, который не ...
вопрос задан: 4 March 2019 13:16
1
ответ

Apache Beam Java-тестирование ExpectedLogs Maven

Я использую Apache Beam с Maven, и в pom.xml зависимость < dependency > < идентификатор_группа > org.apache.beam & л; / идентификатор_группа > < артефакт > луч-SDKs-Java-жильный & л; / артефакт > ...
вопрос задан: 17 January 2019 09:09
1
ответ

Может ли Beam / Dataflow сохранять состояние после остановки конвейера и запуска нового?

Я пытаюсь понять, как поток данных / Beam управляет состоянием. Например, при использовании потоков kafka можно остановить и перезапустить приложение и перейти к последнему состоянию. Beam / ...
вопрос задан: 16 January 2019 13:50
1
ответ

Beam Java SDK 2.4 / 2.5 PAssert с CoGroupByKey

Мне может быть недостает чего-то очевидного, но по какой-то причине я не могу сделать PAssert & amp; TestPipeline работает с CoGroupByKey, но без него работает отлично. Вот ссылочный тестовый файл, который может ...
вопрос задан: 14 July 2018 01:18
0
ответов

Вызов JDBCIO процедуры Postgres (сохраненный процесс), которая принимает в качестве параметра пользовательский тип объекта

Я пытаюсь вызвать процедуру Postgres, которая принимает пользовательский тип объекта в качестве параметра. создать тип person_type as (первый varchar, второй varchar, is_real логический); Мои повседневные обязанности (...
вопрос задан: 26 March 2019 22:00
0
ответов

Как указать сценарий запуска в задании потока данных для Java, который будет выполняться на каждом работнике VM потока данных

У меня есть требование изменить ~ / .ssh / authorized_keys для добавления пользовательских открытых ключей для входа Я нашел эту статью, которая предназначена для работы с Python. https: //beam.apache.org/documentation/sdks/python-pipeline -...
вопрос задан: 20 March 2019 21:12
0
ответов

Включение графика предварительной обработки BEAM в модели Keras при обслуживании

Краткий вопрос: поскольку Tensorflow движется в сторону Keras и от оценщиков, как мы можем включить наши конвейеры предварительной обработки, например, используя tf.Transform и build_serving_input_fn () (которые ...
вопрос задан: 20 March 2019 19:11
0
ответов

Поток данных Apache Beam Streaming застрял при чтении миджей из PubSub

В Apache Beam Python 2.7 SDK 2.11.0 сложилась странная ситуация для довольно простого конвейера потоков данных, где необходимо разбирать сообщения из подписки PubSub на несколько BiqQuery ...
вопрос задан: 18 March 2019 17:30
0
ответов

Файл перезаписывается после закрытия при запуске конвейера луча в DataFlow

Я создал лучевой конвейер p для запуска в потоке данных и хочу записать что-то в файл перед запуском моего конвейера. Мой код: импортировать apache_beam как луч из apache_beam.options ....
вопрос задан: 18 March 2019 16:36
0
ответов

Что означает & ldquo; коммутативное и ассоциативное & rdquo; имеется ввиду с точки зрения Apache Beam и параллельной обработки, в общем?

Из документации При применении преобразования «Объединение» необходимо предоставить функцию, которая содержит логику для объединения элементов или значений. Комбинирующая функция должна быть ...
вопрос задан: 11 March 2019 12:01
0
ответов

Потоковая передача файлов GCS с использованием потока данных (apachebeam python)

У меня есть GCS, где я получаю файл каждую минуту. Я создал потоковый поток данных, используя apache beam Python sdk.i создал pub / sub topic для ввода gcs bucket и вывода gcs bucket.my dataflow ...
вопрос задан: 7 March 2019 13:37
0
ответов

Динамическое разделение данных в APache Beam

Я новичок в Apache Beam, я пытаюсь разделить мои файлы паркета, которые хранятся в моей HDFS, используя один из столбцов в моих данных. В Apache Beam я могу сделать разметку, но это статично ...
вопрос задан: 4 March 2019 08:21
0
ответов

Поток данных CoGroupByKey очень медленный - более 10000 элементов на ключ

У меня есть две PCollection < KV < String, TableRow > > у одного ~ 7 миллионов строк, а у другого ~ 1 миллион строк. Я хочу применить левое внешнее соединение между этими двумя PCollections и ...
вопрос задан: 27 February 2019 03:36
0
ответов

Конвейер DataFlow застрял при инициализации tempLocation?

Я новичок в DataFlow и пытаюсь настроить потоковый конвейер чтения файлов CSV из Google Cloud Storage в BigQuery. Конвейер успешно создан, файлы CSV читаются и анализируются. ...
вопрос задан: 18 January 2019 17:28
0
ответов

Поток данных: множественное разветвление / комбинация из N массивов

Скажем, у меня есть данные key1 = [1, 2, 3] и key2 = [a, b, c], где a и b - значение ключа, где value - массив. Мне нужно составить карту этого и произвести [1, a], [2, a], [3, a], [1, b], [2, b], [3, b], [1, c], [ ...
вопрос задан: 16 January 2019 19:56
0
ответов

Python-код для балок с поддержкой hdfs в конвейере

Я запускаю здесь пример настроения для преобразования тензорного потока. https://github.com/tensorflow/transform/blob/master/examples/sentiment_example.py для функции fn ReadAndShuffleData (), определенной в строке 78-98, ...
вопрос задан: 16 January 2019 10:17
0
ответов

Почему пример Apache Beam WordCount, запущенный на Flink, был намного медленнее, чем пример родного примера flink flink?

Я просто изучал луч Apache и Flink.I запускаю пример Beam WordCount и запускаю на flink.The flink веб-интерфейс показывает общее время работы было 8s, но когда запустить flink родной WordCount пример, он просто использовал 2s ....
вопрос задан: 14 July 2018 02:25