9
ответов

Замена groupBykey () с помощью reduceByKey () [duplicate]

Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...
вопрос задан: 17 August 2017 10:00
4
ответа

Преобразование строки 1 с и 0s в двоичное значение

Я пытаюсь преобразовать входящее жало 1 с и 0s от stdin в их соответствующие двоичные значения (где строка такой как "11110111" была бы преобразована в 0xF7). Это кажется довольно тривиальным, но я надеваю'...
вопрос задан: 11 August 2009 15:41
2
ответа

Сжатые данные в S3, которые необходимо использовать для машинного обучения в EMR или Redshift

У меня есть огромные файлы CSV в формате zip в хранилище S3. Мне нужно только подмножество столбцов из данных для целей машинного обучения. Как мне извлечь эти столбцы в EMR, а затем в Redshift ...
вопрос задан: 23 March 2019 17:37
2
ответа

Создание кластера EMR с использованием запуска Airflow dag. После выполнения задачи EMR будет прервана.

У меня есть задания Airflow, которые нормально работают на кластере EMR. что мне нужно, скажем, если у меня есть 4 задания потока воздуха, для которых требуется кластер EMR, скажем, 20 минут для выполнения задачи. почему не мы ...
вопрос задан: 18 March 2019 18:15
1
ответ

Как узнать значения mapred-сайта на кластере Amazon EMR?

У меня были проблемы с памятью, поэтому я посмотрел значения параметров по умолчанию, такие как: mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts в документации Amazon ...
вопрос задан: 26 March 2019 20:24
1
ответ

Почему в EMR доступны только типы экземпляров более старого поколения?

Нынешние поколения - это в основном серии «5», такие как c5, m5 и r5 https://aws.amazon.com/ec2/pricing/on-demand/: Но при выборе типов экземпляров для EMR доступны только самые последние поколения .. ,
вопрос задан: 5 March 2019 18:36
1
ответ

Почему pyspark sql запрос против S3 возвращает нули

Я получаю разные результаты при выполнении одного и того же запроса в Афине к источнику S3 по сравнению с выполнением его из скрипта pyspark в кластере EMR (1 x 10). Я получаю данные от Афины, но все, что я ...
вопрос задан: 21 January 2019 16:37
1
ответ

Как установить livy.server.session.timeout на загрузку кластера EMR?

Я создаю кластер EMR и использую ноутбук Jupyter для запуска некоторых задач. Мои задачи умирают примерно через 1 час выполнения, и ошибка: Обнаружена ошибка: Неверный код состояния ...
вопрос задан: 16 January 2019 15:30
1
ответ

Как & lt; MyDataFrame & gt; GroupBy (& ldquo; Fields & rdquo;). Применить (Fn)? [Дубликат]

Мне нужно написать пользовательскую функцию GroupBy.Apply () для pyspark. Поэтому я сказал: Представляем Pandas UDF для PySpark. Как я уже сказал, я попытался - @pandas_udf (& lt; mydf & gt; .schema, PandasUDFType.GROUPED_MAP) ...
вопрос задан: 28 June 2018 13:44
1
ответ

Отладка Pyspark в кластере [дубликат]

Если задания pyspark терпят неудачу в кластере, как отлаживать? Должны ли мы перезапустить весь процесс приложения с самого начала или его можно перезапустить с неудачного шага?
вопрос задан: 21 August 2015 14:29
0
ответов

Проблема импорта модулей из файла .zip (созданного в python с использованием пакета zipfile) с --py-файлами в EMR в Spark

Я пытаюсь заархивировать свое приложение в моем тестовом файле, чтобы инициировать отправку в кластере EMR, например: Структура папок модулей: app --- module1 ------ test.py ------ test2.py - - module2 ------ ...
вопрос задан: 13 April 2019 14:11
0
ответов

Десериализовать DynamoDB JSON в Hive

Я создал внешнюю таблицу на EMR для поиска данных на DynamoDB через Hive. Поскольку в таблице DDB есть поле карты, я сопоставил это поле как карту, что привело к отображению всех записей в формате JSON ...
вопрос задан: 7 April 2019 17:19
0
ответов

Шаг искрового задания AWS EMR не будет выполнен

Я пытаюсь запустить программу искры на AWS. Он просто читает CSV-файл и печатает его с помощью dataframe.show (). Я ждал выполнения шага с последних 15-20 минут, но прогресса не было. CSV ...
вопрос задан: 23 February 2019 22:52
0
ответов

Как добавить интерпретатор livy в Zeppelin, работающий на кластере EMR

Какой самый простой способ добавить ливийский интерпретатор в Zeppelin, работающий на кластере EMR. Какой правильный шаг можно добавить, чтобы получить его?
вопрос задан: 20 January 2019 04:41
0
ответов

Как запустить EMR Jobs на основе новых метаданных файлов S3

Это мой вариант использования, у меня были данные, поступающие в s3, и я хочу запускать задания EMR на основании полученных данных. Однако задания / этапы EMR не будут обрабатывать только полученные данные ...
вопрос задан: 18 January 2019 23:33
0
ответов

Pydoop на Amazon EMR

Как мне использовать Pydoop на Amazon EMR? Я пытался гуглить эту тему безрезультатно: это вообще возможно?
вопрос задан: 14 December 2018 12:23
0
ответов

Лучшие практики Amazon MapReduce для анализа журналов

Я анализирую журналы доступа, созданные Apache, Nginx, Darwin (сервер потокового видео), и собираю статистику для каждого доставленного файла по дате. /реферер/юзерагент. Тонны логов генерируются каждый...
вопрос задан: 8 November 2018 22:31
0
ответов

Amazon EC2 и Amazon EMR [закрыто]

Я реализовал задачу в Hive. В настоящее время он отлично работает в моем кластере с одним узлом. Теперь я планирую развернуть его на AWS. Я ничего не знаю об АВС. Если я планирую его развернуть, то что...
вопрос задан: 18 September 2018 18:38
0
ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...
вопрос задан: 22 September 2017 17:48
0
ответов

Amazon Elastic MapReduce — массовая вставка из S3 в DynamoDB выполняется невероятно медленно

Мне нужно выполнить начальную загрузку примерно 130 миллионов элементов (всего 5+ Гб) Таблица ДинамоБД. После того, как у меня возникли проблемы с их загрузкой с помощью API из моего приложения, я решил...
вопрос задан: 23 May 2017 12:34
0
ответов

Спарк на Amazon EMR: & ldquo; Тайм-аут ожидания соединения из пула & rdquo;

Я выполняю задание Spark на небольшом кластере Amazon EMR 5 (Spark 2.0) с тремя серверами. Моя работа выполняется в течение часа или около того, не удается с ошибкой ниже. Я могу вручную перезапустить, и это работает, обрабатывает больше данных, ...
вопрос задан: 27 August 2016 21:36
0
ответов

Как сделать таблицу HIVE из данных JSON?

Я хочу создать таблицу Hive из некоторых данных JSON (, вложенных ), и выполнять к ней запросы? Это вообще возможно? Мне удалось загрузить файл JSON на S3 и запустить экземпляр EMR, но я не...
вопрос задан: 2 February 2014 22:19
0
ответов

Amazon Elastic MapReduce -SIGTERM

У меня есть потоковое задание EMR (Python ), которое обычно работает нормально (, например. 10 машин, обрабатывающих 200 входных данных ). Однако, когда я запускаю его на больших наборах данных (12 машин, обрабатывающих в общей сложности 6000 входных данн
вопрос задан: 15 August 2012 13:59
0
ответов

Amazon EC2 On-Demand Workers для коротких задач

Я хочу создать веб-приложение, которое должно запускать ресурсоемкий MCMC (Markov цепь Монте-Карло) вычислений по запросу в R для создания некоторых графиков вероятности для пользователя. Ограничения:...
вопрос задан: 10 June 2012 13:39
0
ответов

Как дождаться завершения потока заданий Elastic MapReduce в приложении Java?

Недавно я работал с Amazon Web Services (AWS) и заметил, что документации по этому вопросу не так много, поэтому я добавил свое решение. Я писал приложение, используя Amazon Elastic...
вопрос задан: 25 May 2012 19:52
0
ответов

как ускорить начальную загрузку Amazon EMR?

Я использую amazon EMR для некоторых интенсивных вычислений, но запуск вычислений занимает около 7 минут. Есть ли какой-нибудь умный способ, чтобы мои вычисления начинались немедленно? Вычисление — это питон…
вопрос задан: 23 May 2012 02:55
0
ответов

Папка не удаляется на Amazon S3

Я пытаюсь удалить папку, созданную в результате задания MapReduce. Другие файлы в корзине удаляются нормально, но эта папка не удаляется. Когда я пытаюсь удалить ее из консоли, прогресс...
вопрос задан: 25 March 2012 10:47
0
ответов

У Hive есть что-то эквивалентное DUAL?

Я хотел бы запустить такие операторы, как SELECT date_add('2008-12-31', 1) FROM DUAL Есть ли что-то подобное в Hive (работающем на Amazon EMR)?
вопрос задан: 20 March 2012 22:00
0
ответов

Проверить синтаксис Hive HQL?

Есть ли программный способ проверки операторов HiveQL на наличие таких ошибок, как базовые синтаксические ошибки? Я хотел бы проверить операторы перед отправкой их в Elastic Map Reduce, чтобы сохранить отладку ...
вопрос задан: 16 November 2011 17:13
0
ответов

Несколько файлов на входе в Amazon Elastic MapReduce

Я пытаюсь запустить задание на Elastic MapReduce (EMR) с помощью настраиваемого jar-файла. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свое задание с параметром s3n: // bucketname / ...
вопрос задан: 20 July 2011 15:32