0
ответов

Слияние двух коллекций в MongoDB

Я пытался использовать MapReduce в MongoDB, чтобы сделать, как мне кажется, простую процедуру. Я не знаю, правильный ли это подход, стоит ли мне вообще использовать MapReduce. Я погуглил, какие ключевые слова я...
вопрос задан: 14 March 2012 06:25
0
ответов

Начало работы с Avro

Я хочу начать использовать Avro с Map Reduce. Может ли кто-нибудь предложить хороший учебник / пример для начала. Я не смог найти в Интернете много информации.
вопрос задан: 6 March 2012 15:59
0
ответов

Каковы плюсы и минусы выполнения задания в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
вопрос задан: 5 March 2012 15:14
0
ответов

Анализ файлов PDF в Hadoop Map Reduce

Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...
вопрос задан: 24 February 2012 08:41
0
ответов

Как писать задания hadoop «только карта»?

Я новичок в hadoop, я знаком со стилем программирования map-reduce, но теперь я столкнулся с проблемой: иногда мне нужна только карта для задание, и мне нужен только результат карты как результат, ...
вопрос задан: 22 February 2012 12:06
0
ответов

Преобразование / сокращение CouchDB в массив

У меня есть несколько документов, которые выглядят следующим образом: {userId: 123, msg: {timestamp: 123456, event: "actionA"}} {userId: 123, msg: {timestamp: 123466, event: "actionB"}} и т. д. Карта fn: emit (doc.userId, ...
вопрос задан: 19 February 2012 15:33
0
ответов

Как указать сопоставленные конфигурации и параметры java с настраиваемым jar-файлом в CLI с помощью Amazon EMR?

Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...
вопрос задан: 14 February 2012 20:45
0
ответов

Hive join устанавливает количество редукторов

Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.
вопрос задан: 13 February 2012 18:44
0
ответов

О разделении файлов Hadoop / HDFS

Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это: 1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64MB = размер блока HDFS) ...
вопрос задан: 13 February 2012 10:36
0
ответов

Ограничение памяти достигнуто с помощью appengine-mapreduce

Я работаю над функцией appengine-mapreduce и модифицировал демонстрацию, чтобы она соответствовала моим целям. В основном у меня миллион строк в следующем формате: идентификатор пользователя, время1, время2. Моя цель - найти ...
вопрос задан: 13 February 2012 00:41
0
ответов

Как указать разделитель KeyValueTextInputFormat в Hadoop-.20 api?

В новом API (apache.hadoop.mapreduce.KeyValueTextInputFormat), как указать разделитель (разделитель), отличный от табуляции (по умолчанию), для разделения ключа и Ценность. Пример ввода: одна, первая строка two, ...
вопрос задан: 10 February 2012 04:19
0
ответов

Задание Hadoop: Задача не сообщает о состоянии в течение 601 секунды

Во время выполнения задания hadoop на псевдоузле задача завершается ошибкой и завершается. Ошибка: попытка задачи_ не удалось сообщить о состоянии в течение 601 секунды. Но та же программа выполняется через Eclipse (локальное задание). Задача: ...
вопрос задан: 2 February 2012 08:28
0
ответов

Можно ли отключить сортировку в hadoop?

Моя работа не требует сортировки, только агрегирование информации по ключу. Поэтому я думаю, можно ли отключить сортировку всей информации в порядке увеличения производительности. Примечание: я не могу установить редукторы ...
вопрос задан: 31 January 2012 18:22
0
ответов

Производительность Hadoop

Я установил hadoop 1.0.0 и попробовал подсчет слов пример (одноузловой кластер). На выполнение потребовалось 2 м 48 секунд. Затем я попробовал стандартную программу подсчета слов linux, которая работала за 10 миллисекунд на ...
вопрос задан: 29 January 2012 22:25
0
ответов

потоковая программа на c++ и общие библиотеки

У меня есть программа на C++, которую я пытаюсь запустить как потоковое задание на hadoop (в ней только mappers, никаких reducers). В то время как простая программа на C++ работает корректно. Другая программа на C++, которая связана с большим количеством
вопрос задан: 28 January 2012 11:28
0
ответов

Выявление дубликатов в CouchDB

Я новичок в CouchDB и документно-ориентированных базах данных в целом. Я играл с CouchDB и смог познакомиться с созданием документов (с perl) и использованием Map / Reduce ...
вопрос задан: 27 January 2012 19:03
0
ответов

Hadoop: Ошибка при настройке объекта

Я пытаюсь запустить тесты Terasort и получаю следующее исключение: java.lang.RuntimeException: ошибка при настройке объекта в org.apache.hadoop.util.ReflectionUtils .setJobConf (...
вопрос задан: 24 January 2012 00:06
0
ответов

Как эффективно сканировать строки HBase

Мне нужно написать задание MapReduce, которое получает все строки в заданном диапазоне дат (скажем, за последний месяц). Это было бы проще простого, если бы мой ключ строки начинался с даты. Но мои частые запросы к Hbase ...
вопрос задан: 22 January 2012 18:38
0
ответов

Распределенное модульное тестирование и покрытие кода в Python

В моем текущем проекте действует политика 100% покрытия кода модульными тестами. Наша служба непрерывной интеграции не позволит разработчикам продвигать код без 100% покрытия. По мере роста проекта ...
вопрос задан: 20 January 2012 04:06
0
ответов

Могу ли я принудительно запускать свои редукторы (этап копирования) только после завершения всех сопоставлений

У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом. Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...
вопрос задан: 16 January 2012 08:32
0
ответов

Как заставить улей одновременно запускать задания mapreduce?

Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int, v4 int, v5 bigint, v6 int) ...
вопрос задан: 15 January 2012 07:24
0
ответов

Каким было бы хорошее приложение для расширенной версии MapReduce, которая обменивается информацией между картографами?

Я разрабатываю усовершенствование инфраструктуры Spark (http: // www .spark-project.org /). Spark - это проект Калифорнийского университета в Беркли, который быстро выполняет MapReduce в оперативной памяти. Spark построен на Scala. The ...
вопрос задан: 12 January 2012 23:59
0
ответов

Каков самый быстрый способ программной массовой загрузки данных в HBase?

У меня есть простой текстовый файл с миллионами строк, который требует специального синтаксического анализа, и я хочу его загрузить в таблицу HBase как можно быстрее (с использованием клиента Hadoop или HBase Java). Мой текущий ...
вопрос задан: 6 January 2012 06:49
0
ответов

Hadoop: как получить доступ к (многим) фотоизображениям для обработки с помощью map / reduce?

У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной
вопрос задан: 6 January 2012 02:50
0
ответов

Класс Hadoop JobConf устарел, требуется обновить пример

Я пишу программы hadoop, и я действительно не хочу играть с устаревшими классами. Нигде в Интернете я не могу найти программы с обновленным классом org.apache.hadoop.conf.Configuration ...
вопрос задан: 22 December 2011 12:21
0
ответов

Неверный класс ключа: текст не является IntWritable

Это может показаться глупым вопросом, но я не вижу проблемы в своем типы в моем коде mapreduce для hadoop Как указано в вопросе, проблема в том, что он ожидает IntWritable, но я ...
вопрос задан: 16 December 2011 06:12
0
ответов

Передача параметров в функцию map в Hadoop

Я новичок в Hadoop. Я хочу получить доступ к аргументу командной строки из главной функции (Java-программы) внутри функции map класса mapper. Пожалуйста, подскажите, как это можно сделать.
вопрос задан: 10 December 2011 14:29
0
ответов

Как создать индекс RavenDB, который возвращает список строк?

У меня есть коллекция документов WineDocument на форма: {"Имя": "Барбикато Мореллино Ди Скансано", "Страна": "Италия", "Регион": "Тоскана", } Мне нужно сделать запрос, чтобы найти все уникальные ...
вопрос задан: 9 December 2011 22:40
0
ответов

Как изменить структуру результатов map-reduce в MongoDB?

Когда я запускаю Map-Reduce на базе данных Mongo, я обычно получаю результаты, похожие на следующие: { _id: , value: { : <первое-значение>, ... } } Есть ли способ ...
вопрос задан: 7 December 2011 13:42
0
ответов

Как удалить дубликаты записей в MongoDB с помощью MapReduce?

У меня есть очень большая коллекция в MongoDB, и я хочу удалить дубликаты записей из этой коллекции. Первая мысль, пришедшая мне в голову, это удалить индекс и восстановить индекс с помощью dropDups. ...
вопрос задан: 6 December 2011 19:04