0
ответов

Hadoop Streaming: Mapper «обертывает» двоичный исполняемый файл

У меня есть конвейер, который я сейчас запускаю на большом университетском компьютерном кластере. Для целей публикации я хотел бы преобразовать его в формат mapreduce, чтобы его мог запускать кто угодно, используя ...
вопрос задан: 23 May 2017 12:22
0
ответов

Потоковая передача или настраиваемый файл Jar в Hadoop

Я выполняю задание потоковой передачи в Hadoop (на Amazon EMR) с преобразователем и редуктором, написанным на Python . Я хочу знать, какой прирост скорости я получил бы, если бы реализовал тот же преобразователь и ...
вопрос задан: 23 May 2017 12:17
0
ответов

Как разделить таблицу с помощью HIVE?

Я играю с Hive уже несколько дней, но у меня все еще есть проблемы с разделением. Я записываю журналы Apache (формат Combine) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки,...
вопрос задан: 23 May 2017 12:06
0
ответов

Задание потоковой передачи Hadoop не выполнено (не выполнено) в Python

Я пытаюсь запустить задание Map-Reduce в потоковой передаче Hadoop с помощью сценариев Python и получаю те же ошибки, что и Hadoop Ошибка Streaming Job failed в python, но эти решения у меня не сработали. Мой ...
вопрос задан: 23 May 2017 12:01
0
ответов

Учебник по уменьшению карты Mongodb [дубликат]

Возможный дубликат: как использовать карту / уменьшение в MongoDB? Я видел презентацию MongoDb для новой структуры агрегирования. Есть презентация, прогрессивные примеры и т.д ... Знаете ли вы ...
вопрос задан: 23 May 2017 11:58
0
ответов

Обновление MongoDB MapReduce на месте, как

* В основном я пытаюсь упорядочить объекты по их количеству очков за последний час. Я пытаюсь сгенерировать почасовую сумму голосов для объектов в моей базе данных. Голоса встроены в каждый объект. Схема объекта ...
вопрос задан: 23 May 2017 11:54
0
ответов

Использование Pig / Hive для обработки данных вместо кода сокращения прямой карты Java?

(Даже более простой, чем разница между Pig и Hive? Почему оба?) У меня есть конвейер обработки данных, написанный в нескольких задачах Java по сокращению карты через Hadoop (мой собственный код, полученный из Hadoop '...
вопрос задан: 23 May 2017 11:50
0
ответов

Why does my Mapreduce implementation (real world haskell) using iteratee IO also fails with “Too many open files”

I am implementing a haskell program wich compares each line of a file with each other line in the file. Which can be implemented single threaded as follows distance :: Int -> Int -> Int ...
вопрос задан: 23 May 2017 11:45
0
ответов

как вычислить среднее значение с помощью mongodb и NumberLong

Я пытаюсь вычислить среднее значение из коллекции используя java-драйвер mongodb, например: DBObject condition = new BasicDBObject ("pluginIdentifier", plugin.getIdentifier ()); DBObject ...
вопрос задан: 10 May 2017 19:08
0
ответов

Когда в Hadoop начинаются задачи сокращения?

Когда в Hadoop начинаются задачи сокращения? Начинаются ли они после определенного процента (порога )завершенных картографов? Если да, то фиксирован ли этот порог? Какой тип порога обычно используется?
вопрос задан: 10 July 2016 14:24
0
ответов

Hadoop MapReduce: можно ли определить два преобразователя и редьюсера в одном классе заданий Hadoop?

У меня есть два отдельных класса Java для выполнения двух разных заданий mapreduce. Я могу запустить их независимо. Входные файлы, с которыми они работают, одинаковы для обоих заданий. Итак, мой вопрос...
вопрос задан: 8 February 2016 23:04
0
ответов

Объединение нескольких задач mapreduce в потоковую передачу Hadoop

Я нахожусь в сценарии, где у меня есть два задания mapreduce. Мне удобнее работать с python, и я планирую использовать его для написания скриптов mapreduce и использовать для этого потоковую передачу hadoop. есть ли удобный ...
вопрос задан: 7 February 2016 04:05
0
ответов

Hadoop namenode: одна точка of failure

Namenode в архитектуре Hadoop - это единственная точка отказа. Как люди, у которых есть большие кластеры Hadoop, справляются с этой проблемой? Есть ли принятое в отрасли решение, которое сработало ...
вопрос задан: 1 February 2016 13:37
0
ответов

Как извлекать данные в функциях Map / Reduce?

Согласно Hadoop: The Definitive Guide. Новый API поддерживает итерацию как «push», так и «pull». В обоих API пары записей «ключ-значение» передаются в средство сопоставления, но, кроме того, ...
вопрос задан: 29 December 2015 21:54
0
ответов

Запуск задания mapreduce из eclipse

Я написал программу mapreduce на Java, которую я могу отправить на удаленный кластер, работающий в распределенном режиме. В настоящее время я отправляю задание, используя следующие шаги: экспортировать задание mapreuce в виде jar-файла...
вопрос задан: 26 October 2015 14:53
0
ответов

Что такое Hive :Код возврата 2 из org.apache.hadoop.hive.ql.exec.MapRedTask

Я получаю :FAILED :Execution Error, код возврата 2 от org.apache.hadoop.hive.ql.exec.MapRedTask При попытке сделать копию секционированной таблицы с помощью команд в консоли куста :СОЗДАТЬ...
вопрос задан: 6 September 2015 22:28
0
ответов

Как удалить временные коллекции MapReduce в mongoDB

Есть ли способ удалить все временные коллекции сокращения карты? Я читал, что вы можете передать логическое значение параметра, чтобы сохранить или удалить коллекции. но параметр предназначен для оболочки, и я использую ...
вопрос задан: 11 July 2015 19:26
0
ответов

объединить выходные файлы после фазы сокращения

В mapreduce каждая задача сокращения записывает свой вывод в файл с именем part-r-nnnnn, где nnnnn - это идентификатор раздела, связанный с задачей сокращения. Объединяет ли map / reduce эти файлы? Если да, то как?
вопрос задан: 5 May 2015 01:55
0
ответов

Что лучше: использовать пакет mapred или пакет mapreduce для создания задания Hadoop?

Для создания заданий MapReduce вы можете использовать либо старый пакет org.apache.hadoop.mapred, либо новый пакет org.apache.hadoop. пакет mapreduce для картографов и редукторов, заданий ... Первый был отмечен ...
вопрос задан: 22 March 2015 15:27
0
ответов

Как получить результаты редуктора hadoop в коллекции (массив, набор и т. Д.)?

Я пишу программу, которая обрабатывает результаты редуктора перед выводом некоторого результата, например, вывод обработки Mapper Reducer. Невозможно интегрировать часть обработки в редуктор ...
вопрос задан: 25 February 2015 19:11
0
ответов

ExException в потоке «main» java.lang.IllegalArgumentException: / home не может быть каталогом

Привет, я бегу упражнение на подсчет слов в Spark Java. Когда я выполняю в hdfs, я получаю подобное исключение в потоке "main" java.lang.IllegalArgumentException: / home / karun не может быть каталогом. в ...
вопрос задан: 25 February 2015 04:46
0
ответов

Размер блока для каждого файла в Hadoop

В книге Hadoop сказано, что мы можем указать размер блока для каждого файла во время создания файла. «Самый естественный способ увеличить размер разделения - это иметь большие блоки в HDFS, установив dfs ....
вопрос задан: 10 August 2014 09:43
0
ответов

Можно ли запустить встроенный экземпляр узла Apache Spark?

Я хочу запустить экземпляр автономного кластера Apache Spark, встроенного в мое приложение Java. Я пытался найти документацию на их сайте, но пока не смотрел. Это возможно?
вопрос задан: 30 June 2014 14:18
0
ответов

Пользовательская программа сокращения карты в Hive, что за правило? Как насчет ввода и вывода?

Я застрял на несколько дней, потому что хочу создать собственную программу уменьшения карты на основе моего запроса в улье, я нашел не так много примеров после поиска в Google, и я все еще не понимаю правила. Что такое ...
вопрос задан: 25 May 2014 13:45
0
ответов

Использование Mapreduce для отображения нескольких уникальных значений, не всегда присутствующих в одних и тех же строках

Я столкнулся со сложной проблемой с Mapreduce. Я пытаюсь сопоставить 2 уникальных значения, которые не всегда присутствуют вместе в одной строке. Как только я их наметил, мне нужно посчитать общее количество ...
вопрос задан: 2 May 2014 14:39
0
ответов

Работа RecordReader в Hadoop

Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue(), getCurrentkey() и getprogress() после запуска программы?
вопрос задан: 23 April 2014 03:45
0
ответов

Hvad er Googles Dremel? Hvordan adskiller det sig fra Mapreduce?

Googles Dremel er beskrevet her. Hvad er forskellen mellem Dremel og Mapreduce?
вопрос задан: 29 December 2013 20:59
0
ответов

Линейное программирование MapReduce

Можно ли решить простую задачу линейного программирования в распределенной системе с помощью MapReduce?
вопрос задан: 1 November 2013 03:22
0
ответов

Hadoop: ключ и значение разделены табуляцией в выходном файле. как это сделать через точку с запятой?

Я думаю, что заголовок уже объясняет мой вопрос. Я хотел бы изменить значение ключа (табуляции) на ключ; значение во всех выходных файлах, которые редукторы генерируют на основе вывода картографов. Я...
вопрос задан: 8 September 2013 17:39
0
ответов

Передача аргументов модулям сопоставления Hadoop

Я использую новый API Hadoop и ищу способ передать некоторые параметры (несколько строк) модулям сопоставления. Как я могу это сделать? Это решение работает для старого API: JobConf job = (JobConf) getConf (); job.set ("...
вопрос задан: 25 July 2013 12:20