1
ответ

ImportError: нет модуля с именем tennflow_transform.beam

При отправке задания потока данных в GCP я получаю эту ошибку: Traceback (последний вызов был последним): файл "/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py", строка 766, в run self ....
вопрос задан: 18 March 2019 17:46
1
ответ

Как работать с CoderException: не может кодировать пустую строку с Scio

Я только начал использовать scio и dataflow. Попытка моего кода для одного входного файла, работала нормально. Но когда я добавляю больше файлов для ввода, получаю следующее исключение: java.lang.RuntimeException: org.apache.beam ....
вопрос задан: 4 March 2019 19:10
1
ответ

Лучшая практика - запись неограниченной коллекции ПК в корзину GCS с ограниченной учетной записью службы

Попытка сделать мой вопрос как можно более широким: при записи неограниченной PCollection в корзину GCS с использованием TextIO, при этом используя учетную запись службы с принципом наименьших привилегий, который не ...
вопрос задан: 4 March 2019 13:16
1
ответ

Как вводить / выводить Google Dataflow через SFTP

В демоверсии источника используется хранилище Google. Но как заменить его на SFTP?
вопрос задан: 17 January 2019 07:57
1
ответ

Может ли Beam / Dataflow сохранять состояние после остановки конвейера и запуска нового?

Я пытаюсь понять, как поток данных / Beam управляет состоянием. Например, при использовании потоков kafka можно остановить и перезапустить приложение и перейти к последнему состоянию. Beam / ...
вопрос задан: 16 January 2019 13:50
1
ответ

Beam Java SDK 2.4 / 2.5 PAssert с CoGroupByKey

Мне может быть недостает чего-то очевидного, но по какой-то причине я не могу сделать PAssert & amp; TestPipeline работает с CoGroupByKey, но без него работает отлично. Вот ссылочный тестовый файл, который может ...
вопрос задан: 14 July 2018 01:18
1
ответ

Как обеспечить установку google-cloud-bigquery == 0.28.0 для работников потока данных

Мне очень сложно получить последнюю версию bigquery, работающую над рабочими Dataflow. Может кто-нибудь посоветует, каким будет более простой способ сделать эту работу. Имея setup.py с google-cloud -...
вопрос задан: 13 July 2018 18:07
1
ответ

Google Dataflow - Планирование

В облачной платформе Google - Dataflow при потоковой передаче неограниченного PCollection (скажем, из темы PubSub с использованием PubSubIO) существует эффективный способ запуска и остановки конвейера луча в Dataflow? (Пример ...
вопрос задан: 13 July 2018 16:39
0
ответов

Как указать сценарий запуска в задании потока данных для Java, который будет выполняться на каждом работнике VM потока данных

У меня есть требование изменить ~ / .ssh / authorized_keys для добавления пользовательских открытых ключей для входа Я нашел эту статью, которая предназначена для работы с Python. https: //beam.apache.org/documentation/sdks/python-pipeline -...
вопрос задан: 20 March 2019 21:12
0
ответов

Поток данных Apache Beam Streaming застрял при чтении миджей из PubSub

В Apache Beam Python 2.7 SDK 2.11.0 сложилась странная ситуация для довольно простого конвейера потоков данных, где необходимо разбирать сообщения из подписки PubSub на несколько BiqQuery ...
вопрос задан: 18 March 2019 17:30
0
ответов

Что означает & ldquo; коммутативное и ассоциативное & rdquo; имеется ввиду с точки зрения Apache Beam и параллельной обработки, в общем?

Из документации При применении преобразования «Объединение» необходимо предоставить функцию, которая содержит логику для объединения элементов или значений. Комбинирующая функция должна быть ...
вопрос задан: 11 March 2019 12:01
0
ответов

Google Dataflow - цифры выхода Wall Time / PCollection идут в обратном направлении

Первый шаг конвейера Dataflow, который мы делаем, - это чтение BigQuery с использованием Python Beam API. beam.io.Read (beam.io.BigQuerySource (project = google_project, table = table_name, ...
вопрос задан: 7 March 2019 20:16
0
ответов

Потоковая передача файлов GCS с использованием потока данных (apachebeam python)

У меня есть GCS, где я получаю файл каждую минуту. Я создал потоковый поток данных, используя apache beam Python sdk.i создал pub / sub topic для ввода gcs bucket и вывода gcs bucket.my dataflow ...
вопрос задан: 7 March 2019 13:37
0
ответов

Поток данных CoGroupByKey очень медленный - более 10000 элементов на ключ

У меня есть две PCollection < KV < String, TableRow > > у одного ~ 7 миллионов строк, а у другого ~ 1 миллион строк. Я хочу применить левое внешнее соединение между этими двумя PCollections и ...
вопрос задан: 27 February 2019 03:36
0
ответов

Конвейер DataFlow застрял при инициализации tempLocation?

Я новичок в DataFlow и пытаюсь настроить потоковый конвейер чтения файлов CSV из Google Cloud Storage в BigQuery. Конвейер успешно создан, файлы CSV читаются и анализируются. ...
вопрос задан: 18 January 2019 17:28
0
ответов

Поток данных: множественное разветвление / комбинация из N массивов

Скажем, у меня есть данные key1 = [1, 2, 3] и key2 = [a, b, c], где a и b - значение ключа, где value - массив. Мне нужно составить карту этого и произвести [1, a], [2, a], [3, a], [1, b], [2, b], [3, b], [1, c], [ ...
вопрос задан: 16 January 2019 19:56
0
ответов

Запуск другой версии Python дает & ldquo; not found & rdquo; ошибка

У меня есть внешнее приложение, которое поставляется в виде отдельного пакета с собственным подмножеством Python и зависимостями. Я собираюсь связать этот пакет с моим собственным кодом Python и запустить его в Google Cloud ...
вопрос задан: 16 January 2019 14:51
0
ответов

Установите приложение Oracle InstantClient в Google Cloud Dataflow в проекте Python.

Это Apache Beam Python проект, развернутый в потоке данных. он работает с directrunner, но не с dataflowrunner, так как не может найти библиотеку оракула. все работает отдельно от последней строки, которая дает ...
вопрос задан: 16 January 2019 12:19