0
ответов

Планирование задания на AWS EC2

У меня есть веб-сайт, работающий на AWS EC2. Мне нужно создать ночное задание, которое генерирует файл карты сайта и загружает файлы в различные браузеры. Я ищу на AWS утилиту, которая позволяет это ...
вопрос задан: 26 August 2013 23:19
0
ответов

Amazon Elastic MapReduce -SIGTERM

У меня есть потоковое задание EMR (Python ), которое обычно работает нормально (, например. 10 машин, обрабатывающих 200 входных данных ). Однако, когда я запускаю его на больших наборах данных (12 машин, обрабатывающих в общей сложности 6000 входных данн
вопрос задан: 15 August 2012 13:59
0
ответов

Amazon Elastic Map Reduce для анализа журналов s3

Я использую EMR для анализа веб-журналов nginx. Но мне нужно обработать журналы, чтобы они могли разбиваться на строки и столбцы, чтобы упростить запросы. Таким образом, я сделал две таблицы - rawlog, processinglog...
вопрос задан: 12 June 2012 09:12
0
ответов

Как дождаться завершения потока заданий Elastic MapReduce в приложении Java?

Недавно я работал с Amazon Web Services (AWS) и заметил, что документации по этому вопросу не так много, поэтому я добавил свое решение. Я писал приложение, используя Amazon Elastic...
вопрос задан: 25 May 2012 19:52
0
ответов

AWS DynamoDB и MapReduce в Java

У меня есть огромная таблица DynamoDB, которую я хочу проанализировать для агрегирования данных, хранящихся в ее атрибутах. Затем агрегированные данные должны быть обработаны приложением Java. Хотя я понимаю...
вопрос задан: 18 April 2012 03:56
0
ответов

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS

Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | сортировать | python reducer.py Однако, когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не ...
вопрос задан: 26 March 2012 23:15
0
ответов

Экспорт таблицы Hive в ведро S3

Я создал таблицу Hive через интерактивную сессию Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ФОРМАТ СТРОК РАЗДЕЛЕННЫЙ ...
вопрос задан: 28 February 2012 20:48
0
ответов

Как указать сопоставленные конфигурации и параметры java с настраиваемым jar-файлом в CLI с помощью Amazon EMR?

Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...
вопрос задан: 14 February 2012 20:45
0
ответов

Повторное использование экземпляра Amazon Elastic MapReduce

Я попробовал простую задачу Map / Reduce с помощью Amazon Elastic MapReduce, и мне потребовалось всего 3 минуты, чтобы выполнить задачу. Можно ли повторно использовать тот же экземпляр для выполнения другой задачи. Несмотря на то, что у меня ...
вопрос задан: 30 July 2011 00:27
0
ответов

Поддержка клиента Python для запуска Hive поверх Amazon EMR

Я заметил, что ни mrjob Кроме того, boto не поддерживает интерфейс Python для отправки и выполнения заданий Hive в Amazon Elastic MapReduce (EMR). Существуют ли какие-либо другие клиентские библиотеки Python, которые поддерживают выполнение ...
вопрос задан: 23 May 2011 22:36
0
ответов

Hadoop seems to modify my key object during an iteration over values of a given reduce call

Hadoop Version: 0.20.2 (On Amazon EMR) Problem: I have a custom key that i write during map phase which i added below. During the reduce call, I do some simple aggregation on values for a given key. ...
вопрос задан: 23 May 2011 03:00
0
ответов

Срок службы распределенного кеша в Hadoop

Когда файлы передаются на узлы с использованием механизма распределенного кеша в задании потоковой передачи Hadoop, удаляет ли система эти файлы после завершения задания? Если они удаляются, что я предполагаю ...
вопрос задан: 12 May 2011 19:30