0
ответов

Высокая пропускная способность и низкая задержка в HDFS

Я попытался определить, что означает высокая пропускная способность по сравнению с низкой задержкой в ​​HDFS, и предложил следующее определение: HDFS оптимизирован для более быстрого доступа к пакетам данных (высокая ...
вопрос задан: 23 May 2013 15:32
0
ответов

Фаза сортировки объединителя Hadoop

При запуске задания MapReduce с указанным объединителем, выполняется ли объединитель во время фазы сортировки? Я понимаю, что объединитель запускается на выходе картографа для каждого выброса, но похоже, что это будет ...
вопрос задан: 20 May 2013 07:32
0
ответов

Класс «Combiner» в задании mapreduce

Combiner запускается после Mapper и перед Reducer, он получает в качестве входных данных все данные, испускаемые экземплярами Mapper на заданном узле, а затем передает выходные данные в Reducers. Кроме того, если редукция...
вопрос задан: 20 May 2013 07:26
0
ответов

Могу ли я использовать python с giraph?

Поддерживается ли python в Giraph, и если да, то поддерживается ли он -так же, как python в Hadoop, или это приводит к значительному снижению производительности по сравнению с использованием raw Java?
вопрос задан: 11 May 2013 19:15
0
ответов

hadoop.mapred против hadoop.mapreduce?

Почему в дереве пакетов Apache есть два отдельных пакета map-Reduce: org.apache.hadoop.mapred http://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop / ...
вопрос задан: 29 April 2013 01:15
0
ответов

Можно ли использовать apache mahout без зависимости от Hadoop?

Можно ли использовать Apache mahout без какой-либо зависимости от Hadoop. Я хотел бы использовать алгоритм mahout на одном компьютере, включив только библиотеку mahout в мой проект Java, но я ...
вопрос задан: 11 April 2013 22:08
0
ответов

Как правильно использовать oozie для записи в несколько выходных потоков для задания mapreduce?

Я использую новый API Hadoop для написания последовательности заданий по уменьшению карты. Я планирую использовать Oozie для конвейера всего этого вместе, но я не могу найти способ сделать несколько выходных потоков с карты-...
вопрос задан: 4 April 2013 11:48
0
ответов

стоит приобрести Mahout в действии, чтобы быстрее освоить Mahout, или есть другие лучшие источники?

В настоящее время я очень случайный пользователь Apache Mahout и подумываю о покупке книги Mahout в действии. К сожалению, мне очень трудно понять, сколько стоит эта книга ...
вопрос задан: 25 March 2013 19:11
0
ответов

В чем разница между Apache Pig и Apache Hive?

В чем точная разница между свиньей и ульем? Я обнаружил, что оба имеют одинаковое функциональное значение, потому что они используются для выполнения одной и той же работы. Единственное, это реализация, которая отличается для...
вопрос задан: 18 March 2013 22:54
0
ответов

Доступ к счетчику преобразователя из редуктора

Мне нужно получить доступ к счетчикам из моего преобразователя в моем редукторе. Это возможно? Если да, то как это делается? В качестве примера: мой сопоставитель: открытый класс CounterMapper расширяет Mapper ...
вопрос задан: 15 March 2013 19:18
0
ответов

Сериализация с использованием ArrayWritable, кажется, работает забавно

Я работал с ArrayWritable, в какой-то момент мне нужно было проверить, как Hadoop сериализует ArrayWritable, вот что я получил установив job.setNumReduceTasks (0): 0 IntArrayWritable @ 10f11b8 3 ...
вопрос задан: 12 March 2013 21:11
0
ответов

Hadoop: разрешение start-dfs.sh отклонено

Я устанавливаю Hadoop на свой ноутбук. SSH работает нормально, но я не могу запустить hadoop. munichong @ GrindPad: ~ $ ssh localhost Добро пожаловать в Ubuntu 12.10 (GNU / Linux 3.5.0-25-generic x86_64) * Документация: ...
вопрос задан: 4 March 2013 21:52
0
ответов

Вставка данных в таблицу Hive

Я новичок в hive. Я успешно настроил кластер Hadoop с одним узлом для целей разработки, а поверх него я установил hive и pig. Я создал фиктивную таблицу в hive: create table foo (...
вопрос задан: 4 March 2013 06:54
0
ответов

Как добавить номера строк для строк в PIG или HIVE?

У меня проблема при добавлении номеров строк с помощью Apache Pig. Проблема в том, что у меня есть столбец STR_ID, и я хочу добавить столбец ROW_NUM для данных в STR_ID, который является номером строки STR_ID. ...
вопрос задан: 7 January 2013 21:31
0
ответов

Получение метрик Hadoop Job tracker в формате JSON

Я ищу способ перечислить все детали JobTracker и TaskTracker в формате JSON. Когда я пробую http://[myjobtrackermachine]:50030/metrics?format=json, я получаю пустую строку JSON (хотя...
вопрос задан: 14 December 2012 06:03
0
ответов

уже созданное исключение Hadoop Multiple

Я не получаю приведенную ниже ошибку, когда запускаю код для небольших данных. Но я получаю следующую ошибку при использовании нескольких выходов, когда я запускаю один и тот же код для большего набора данных. Пожалуйста помогите! орг.апач....
вопрос задан: 13 December 2012 01:25
0
ответов

Разница между Hadoop Map Reduce и Google Map Reduce

В чем разница между Hadoop Map Reduce и Google Map Reduce? Это просто Hadoop обеспечивает стандартизацию для уменьшения карты и других? что еще есть среди diff.
вопрос задан: 24 November 2012 21:13
0
ответов

Как работает HDFS с добавлением

Предположим, что один из них использует размер блока по умолчанию (128 МБ), и есть файл, использующий 130 МБ; поэтому используется один полноразмерный блок и один блок размером 2 МБ. Затем к файлу необходимо добавить 20 МБ (всего ...
вопрос задан: 13 November 2012 17:41
0
ответов

Hadoop генерирует исключение ClassCastException для типа ключа java.nio.ByteBuffer

. Я использую hadoop-0.20.203.0rc1.tar.gz для настройки кластера. Всякий раз, когда я устанавливаю job.setMapOutputKeyClass (ByteBuffer.class); и запустите задание. Я получаю следующее Исключение: 12/01/13 15:09:00 INFO ...
вопрос задан: 24 October 2012 03:22
0
ответов

Доступные редукторы в Эластичном MapReduce

Я надеюсь, что спрашиваю это правильным способом. Я изучаю свой путь вокруг Эластичного MapReduce, и я видел многочисленные ссылки на "Совокупный" редуктор, который может использоваться с "Потоковой передачей" потоков заданий. В...
вопрос задан: 17 October 2012 21:58
0
ответов

Как создать/запустить эту простую программу Mahout, не получая исключений?

Я хотел бы запустить этот код, который я нашел в Mahout In Action :package org.help; импортировать java.io.IOException; импортировать java.util.ArrayList; импортировать java.util.List; импортировать org.apache.hadoop.conf....
вопрос задан: 11 October 2012 21:40
0
ответов

Как начать работу с анализом больших данных [закрыто]

Я долгое время пользовался R и недавно начал работать с Python. Используя обычные системы РСУБД для хранения данных и R / Python для обработки чисел, я чувствую необходимость сейчас получить свои ...
вопрос задан: 25 September 2012 16:34
0
ответов

Hadoop Datanode, namenode, secondary-namenode, трекер заданий и трекер задач

Я новичок в hadoop, поэтому у меня есть некоторые сомнения. Если главный узел выходит из строя, что случилось с кластером hadoop? Можем ли мы восстановить этот узел без потерь? Можно ли оставить вторичный мастер-узел для переключения ...
вопрос задан: 10 September 2012 10:11
0
ответов

hadoop создает каталог, который не может быть найден

Я использую следующую команду hadoop, чтобы создать каталог
вопрос задан: 7 September 2012 19:27
0
ответов

Как скопировать файлы из S3 в Amazon EMR HDFS?

Я использую куст поверх EMR, и мне нужно скопировать некоторые файлы во все экземпляры EMR. Один из способов, насколько я понимаю, - это просто скопировать файлы в локальную файловую систему на каждом узле, другой - скопировать файлы в ...
вопрос задан: 3 September 2012 17:11
0
ответов

Улей: добавление динамического раздела во внешнюю таблицу

Я использую куст 071, обрабатывающий существующие данные, которые имеют следующую структуру каталогов: - TableName - d = (например, 2011-08-01) - d = 2011-08-02 - d = 2011-08-03 ... и т. д. под каждой датой у меня есть дата ...
вопрос задан: 3 September 2012 15:33
0
ответов

Как практиковаться в программировании на Hadoop? [закрыто]

Только начал просматривать вводные видеоролики Hadoop. Как практиковать самостоятельно? Есть ли рекомендуемый способ установки на локальном компьютере для практики?
вопрос задан: 16 August 2012 20:11
0
ответов

Node.Js в стиле Erlang?

Я полный нуб когда дело касается как Node.Js, так и Erlang. Но разве нельзя было бы создать приложение Node.js, которое имитирует поведение Erlang? например, вы передаете json-сообщения через распределенный узел ....
вопрос задан: 15 August 2012 19:21
0
ответов

Объект JSON занимает несколько строк. Как разделить ввод в Hadoop

Мне нужно загрузить большие файлы JSON, записи которых могут занимать несколько строк (, а не файлы )(. полностью зависит от того, как это пишет поставщик данных ). Elephant -Bird предполагает сжатие LZO, которое я знаю...
вопрос задан: 13 August 2012 17:22
0
ответов

Запуск двух преобразователей и двух преобразователей для простых заданий mapreduce в Hadoop

Я просто хотел лучше понять, как использовать несколько картографов и редукторов. Я хочу попробовать это, используя простое задание подсчета слов с помощью hadoop mapreduce. Я хочу запустить два картографа и два редуктора для...
вопрос задан: 7 August 2012 16:10