amazon-emr - список вопросов по программированию amazon-emr

9

ответов

Замена groupBykey () с помощью reduceByKey () [duplicate]

Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...

вопрос задан: 17 August 2017 10:00

4

ответа

Преобразование строки 1 с и 0s в двоичное значение

Я пытаюсь преобразовать входящее жало 1 с и 0s от stdin в их соответствующие двоичные значения (где строка такой как "11110111" была бы преобразована в 0xF7). Это кажется довольно тривиальным, но я надеваю'...

amazon-emr

вопрос задан: 11 August 2009 15:41

2

ответа

Сжатые данные в S3, которые необходимо использовать для машинного обучения в EMR или Redshift

У меня есть огромные файлы CSV в формате zip в хранилище S3. Мне нужно только подмножество столбцов из данных для целей машинного обучения. Как мне извлечь эти столбцы в EMR, а затем в Redshift ...

amazon-s3 amazon-redshift amazon-emr

вопрос задан: 23 March 2019 17:37

2

ответа

Создание кластера EMR с использованием запуска Airflow dag. После выполнения задачи EMR будет прервана.

У меня есть задания Airflow, которые нормально работают на кластере EMR. что мне нужно, скажем, если у меня есть 4 задания потока воздуха, для которых требуется кластер EMR, скажем, 20 минут для выполнения задачи. почему не мы ...

apache-spark hadoop airflow amazon-emr

вопрос задан: 18 March 2019 18:15

1

ответ

Как узнать значения mapred-сайта на кластере Amazon EMR?

У меня были проблемы с памятью, поэтому я посмотрел значения параметров по умолчанию, такие как: mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts в документации Amazon ...

amazon-web-services hadoop amazon-emr

вопрос задан: 26 March 2019 20:24

1

ответ

Почему в EMR доступны только типы экземпляров более старого поколения?

Нынешние поколения - это в основном серии «5», такие как c5, m5 и r5 https://aws.amazon.com/ec2/pricing/on-demand/: Но при выборе типов экземпляров для EMR доступны только самые последние поколения .. ,

amazon-ec2 amazon-emr

вопрос задан: 5 March 2019 18:36

1

ответ

Почему pyspark sql запрос против S3 возвращает нули

Я получаю разные результаты при выполнении одного и того же запроса в Афине к источнику S3 по сравнению с выполнением его из скрипта pyspark в кластере EMR (1 x 10). Я получаю данные от Афины, но все, что я ...

amazon-s3 pyspark null amazon-emr amazon-athena

вопрос задан: 21 January 2019 16:37

1

ответ

Как установить livy.server.session.timeout на загрузку кластера EMR?

Я создаю кластер EMR и использую ноутбук Jupyter для запуска некоторых задач. Мои задачи умирают примерно через 1 час выполнения, и ошибка: Обнаружена ошибка: Неверный код состояния ...

configuration amazon-emr livy

вопрос задан: 16 January 2019 15:30

1

ответ

Как & lt; MyDataFrame & gt; GroupBy (& ldquo; Fields & rdquo;). Применить (Fn)? [Дубликат]

Мне нужно написать пользовательскую функцию GroupBy.Apply () для pyspark. Поэтому я сказал: Представляем Pandas UDF для PySpark. Как я уже сказал, я попытался - @pandas_udf (& lt; mydf & gt; .schema, PandasUDFType.GROUPED_MAP) ...

python pandas apache-spark pyspark amazon-emr

вопрос задан: 28 June 2018 13:44

1

ответ

Отладка Pyspark в кластере [дубликат]

Если задания pyspark терпят неудачу в кластере, как отлаживать? Должны ли мы перезапустить весь процесс приложения с самого начала или его можно перезапустить с неудачного шага?

apache-spark pyspark amazon-emr spark-submit

вопрос задан: 21 August 2015 14:29

0

ответов

Проблема импорта модулей из файла .zip (созданного в python с использованием пакета zipfile) с --py-файлами в EMR в Spark

Я пытаюсь заархивировать свое приложение в моем тестовом файле, чтобы инициировать отправку в кластере EMR, например: Структура папок модулей: app --- module1 ------ test.py ------ test2.py - - module2 ------ ...

python python-3.x pyspark amazon-emr

вопрос задан: 13 April 2019 14:11

0

ответов

Десериализовать DynamoDB JSON в Hive

Я создал внешнюю таблицу на EMR для поиска данных на DynamoDB через Hive. Поскольку в таблице DDB есть поле карты, я сопоставил это поле как карту, что привело к отображению всех записей в формате JSON ...

json hive amazon-dynamodb amazon-emr

вопрос задан: 7 April 2019 17:19

0

ответов

Шаг искрового задания AWS EMR не будет выполнен

Я пытаюсь запустить программу искры на AWS. Он просто читает CSV-файл и печатает его с помощью dataframe.show (). Я ждал выполнения шага с последних 15-20 минут, но прогресса не было. CSV ...

scala amazon-web-services apache-spark apache-spark-sql amazon-emr

вопрос задан: 23 February 2019 22:52

0

ответов

Как добавить интерпретатор livy в Zeppelin, работающий на кластере EMR

Какой самый простой способ добавить ливийский интерпретатор в Zeppelin, работающий на кластере EMR. Какой правильный шаг можно добавить, чтобы получить его?

livy apache-zeppelin amazon-emr

вопрос задан: 20 January 2019 04:41

0

ответов

Как запустить EMR Jobs на основе новых метаданных файлов S3

Это мой вариант использования, у меня были данные, поступающие в s3, и я хочу запускать задания EMR на основании полученных данных. Однако задания / этапы EMR не будут обрабатывать только полученные данные ...

amazon-web-services aws-lambda amazon-sqs amazon-emr amazon-data-pipeline

вопрос задан: 18 January 2019 23:33

0

ответов

Pydoop на Amazon EMR

Как мне использовать Pydoop на Amazon EMR? Я пытался гуглить эту тему безрезультатно: это вообще возможно?

amazon-emr amazon-web-services hadoop python

вопрос задан: 14 December 2018 12:23

0

ответов

Лучшие практики Amazon MapReduce для анализа журналов

Я анализирую журналы доступа, созданные Apache, Nginx, Darwin (сервер потокового видео), и собираю статистику для каждого доставленного файла по дате. /реферер/юзерагент. Тонны логов генерируются каждый...

amazon-emr amazon-s3 hadoop-streaming hadoop logging

вопрос задан: 8 November 2018 22:31

0

ответов

Amazon EC2 и Amazon EMR [закрыто]

Я реализовал задачу в Hive. В настоящее время он отлично работает в моем кластере с одним узлом. Теперь я планирую развернуть его на AWS. Я ничего не знаю об АВС. Если я планирую его развернуть, то что...

amazon-emr amazon-ec2 amazon-web-services hive

вопрос задан: 18 September 2018 18:38

0

ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...

apache-spark emr amazon-emr bigdata

вопрос задан: 22 September 2017 17:48

0

ответов

Amazon Elastic MapReduce — массовая вставка из S3 в DynamoDB выполняется невероятно медленно

Мне нужно выполнить начальную загрузку примерно 130 миллионов элементов (всего 5+ Гб) Таблица ДинамоБД. После того, как у меня возникли проблемы с их загрузкой с помощью API из моего приложения, я решил...

amazon-emr amazon-dynamodb amazon-s3 hive

вопрос задан: 23 May 2017 12:34

0

ответов

Спарк на Amazon EMR: & ldquo; Тайм-аут ожидания соединения из пула & rdquo;

Я выполняю задание Spark на небольшом кластере Amazon EMR 5 (Spark 2.0) с тремя серверами. Моя работа выполняется в течение часа или около того, не удается с ошибкой ниже. Я могу вручную перезапустить, и это работает, обрабатывает больше данных, ...

amazon-emr apache-spark

вопрос задан: 27 August 2016 21:36

0

ответов

Как сделать таблицу HIVE из данных JSON?

Я хочу создать таблицу Hive из некоторых данных JSON (, вложенных ), и выполнять к ней запросы? Это вообще возможно? Мне удалось загрузить файл JSON на S3 и запустить экземпляр EMR, но я не...

amazon-emr emr hadoop hive json

вопрос задан: 2 February 2014 22:19

0

ответов

Amazon Elastic MapReduce -SIGTERM

У меня есть потоковое задание EMR (Python ), которое обычно работает нормально (, например. 10 машин, обрабатывающих 200 входных данных ). Однако, когда я запускаю его на больших наборах данных (12 машин, обрабатывающих в общей сложности 6000 входных данн

amazon-emr elastic-map-reduce hadoop-streaming python

вопрос задан: 15 August 2012 13:59

0

ответов

Amazon EC2 On-Demand Workers для коротких задач

Я хочу создать веб-приложение, которое должно запускать ресурсоемкий MCMC (Markov цепь Монте-Карло) вычислений по запросу в R для создания некоторых графиков вероятности для пользователя. Ограничения:...

amazon-emr amazon-ec2 amazon-swf r

вопрос задан: 10 June 2012 13:39

0

ответов

Как дождаться завершения потока заданий Elastic MapReduce в приложении Java?

Недавно я работал с Amazon Web Services (AWS) и заметил, что документации по этому вопросу не так много, поэтому я добавил свое решение. Я писал приложение, используя Amazon Elastic...

amazon-emr amazon-web-services elastic-map-reduce java

вопрос задан: 25 May 2012 19:52

0

ответов

как ускорить начальную загрузку Amazon EMR?

Я использую amazon EMR для некоторых интенсивных вычислений, но запуск вычислений занимает около 7 минут. Есть ли какой-нибудь умный способ, чтобы мои вычисления начинались немедленно? Вычисление — это питон…

amazon-emr

вопрос задан: 23 May 2012 02:55

0

ответов

Папка не удаляется на Amazon S3

Я пытаюсь удалить папку, созданную в результате задания MapReduce. Другие файлы в корзине удаляются нормально, но эта папка не удаляется. Когда я пытаюсь удалить ее из консоли, прогресс...

amazon-emr amazon-web-services amazon-s3

вопрос задан: 25 March 2012 10:47

0

ответов

У Hive есть что-то эквивалентное DUAL?

Я хотел бы запустить такие операторы, как SELECT date_add('2008-12-31', 1) FROM DUAL Есть ли что-то подобное в Hive (работающем на Amazon EMR)?

amazon-emr hadoop hive

вопрос задан: 20 March 2012 22:00

0

ответов

Проверить синтаксис Hive HQL?

Есть ли программный способ проверки операторов HiveQL на наличие таких ошибок, как базовые синтаксические ошибки? Я хотел бы проверить операторы перед отправкой их в Elastic Map Reduce, чтобы сохранить отладку ...

hive amazon-emr

вопрос задан: 16 November 2011 17:13

0

ответов

Несколько файлов на входе в Amazon Elastic MapReduce

Я пытаюсь запустить задание на Elastic MapReduce (EMR) с помощью настраиваемого jar-файла. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свое задание с параметром s3n: // bucketname / ...

java amazon-emr

вопрос задан: 20 July 2011 15:32