mapreduce - список вопросов по программированию mapreduce

0

ответов

Слияние двух коллекций в MongoDB

Я пытался использовать MapReduce в MongoDB, чтобы сделать, как мне кажется, простую процедуру. Я не знаю, правильный ли это подход, стоит ли мне вообще использовать MapReduce. Я погуглил, какие ключевые слова я...

mongodb mapreduce

вопрос задан: 14 March 2012 06:25

0

ответов

Начало работы с Avro

Я хочу начать использовать Avro с Map Reduce. Может ли кто-нибудь предложить хороший учебник / пример для начала. Я не смог найти в Интернете много информации.

mapreduce avro

вопрос задан: 6 March 2012 15:59

0

ответов

Каковы плюсы и минусы выполнения задания в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...

hadoop mapreduce apache-pig

вопрос задан: 5 March 2012 15:14

0

ответов

Анализ файлов PDF в Hadoop Map Reduce

Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...

pdf hadoop mapreduce pdf-parsing

вопрос задан: 24 February 2012 08:41

0

ответов

Как писать задания hadoop «только карта»?

Я новичок в hadoop, я знаком со стилем программирования map-reduce, но теперь я столкнулся с проблемой: иногда мне нужна только карта для задание, и мне нужен только результат карты как результат, ...

hadoop mapreduce

вопрос задан: 22 February 2012 12:06

0

ответов

Преобразование / сокращение CouchDB в массив

У меня есть несколько документов, которые выглядят следующим образом: {userId: 123, msg: {timestamp: 123456, event: "actionA"}} {userId: 123, msg: {timestamp: 123466, event: "actionB"}} и т. д. Карта fn: emit (doc.userId, ...

couchdb mapreduce

вопрос задан: 19 February 2012 15:33

0

ответов

Как указать сопоставленные конфигурации и параметры java с настраиваемым jar-файлом в CLI с помощью Amazon EMR?

Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...

java hadoop mapreduce elastic-map-reduce emr

вопрос задан: 14 February 2012 20:45

0

ответов

Hive join устанавливает количество редукторов

Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.

hadoop mapreduce hive

вопрос задан: 13 February 2012 18:44

0

ответов

О разделении файлов Hadoop / HDFS

Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это: 1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64MB = размер блока HDFS) ...

hadoop mapreduce

вопрос задан: 13 February 2012 10:36

0

ответов

Ограничение памяти достигнуто с помощью appengine-mapreduce

Я работаю над функцией appengine-mapreduce и модифицировал демонстрацию, чтобы она соответствовала моим целям. В основном у меня миллион строк в следующем формате: идентификатор пользователя, время1, время2. Моя цель - найти ...

python google-app-engine memory-management mapreduce

вопрос задан: 13 February 2012 00:41

0

ответов

Как указать разделитель KeyValueTextInputFormat в Hadoop-.20 api?

В новом API (apache.hadoop.mapreduce.KeyValueTextInputFormat), как указать разделитель (разделитель), отличный от табуляции (по умолчанию), для разделения ключа и Ценность. Пример ввода: одна, первая строка two, ...

java hadoop mapreduce

вопрос задан: 10 February 2012 04:19

0

ответов

Задание Hadoop: Задача не сообщает о состоянии в течение 601 секунды

Во время выполнения задания hadoop на псевдоузле задача завершается ошибкой и завершается. Ошибка: попытка задачи_ не удалось сообщить о состоянии в течение 601 секунды. Но та же программа выполняется через Eclipse (локальное задание). Задача: ...

java eclipse hadoop mapreduce

вопрос задан: 2 February 2012 08:28

0

ответов

Можно ли отключить сортировку в hadoop?

Моя работа не требует сортировки, только агрегирование информации по ключу. Поэтому я думаю, можно ли отключить сортировку всей информации в порядке увеличения производительности. Примечание: я не могу установить редукторы ...

hadoop mapreduce

вопрос задан: 31 January 2012 18:22

0

ответов

Производительность Hadoop

Я установил hadoop 1.0.0 и попробовал подсчет слов пример (одноузловой кластер). На выполнение потребовалось 2 м 48 секунд. Затем я попробовал стандартную программу подсчета слов linux, которая работала за 10 миллисекунд на ...

performance hadoop mapreduce

вопрос задан: 29 January 2012 22:25

0

ответов

потоковая программа на c++ и общие библиотеки

У меня есть программа на C++, которую я пытаюсь запустить как потоковое задание на hadoop (в ней только mappers, никаких reducers). В то время как простая программа на C++ работает корректно. Другая программа на C++, которая связана с большим количеством

c++ hadoop mapreduce

вопрос задан: 28 January 2012 11:28

0

ответов

Выявление дубликатов в CouchDB

Я новичок в CouchDB и документно-ориентированных базах данных в целом. Я играл с CouchDB и смог познакомиться с созданием документов (с perl) и использованием Map / Reduce ...

json perl couchdb mapreduce couchdb-futon

вопрос задан: 27 January 2012 19:03

0

ответов

Hadoop: Ошибка при настройке объекта

Я пытаюсь запустить тесты Terasort и получаю следующее исключение: java.lang.RuntimeException: ошибка при настройке объекта в org.apache.hadoop.util.ReflectionUtils .setJobConf (...

java exception hadoop mapreduce cloudera

вопрос задан: 24 January 2012 00:06

0

ответов

Как эффективно сканировать строки HBase

Мне нужно написать задание MapReduce, которое получает все строки в заданном диапазоне дат (скажем, за последний месяц). Это было бы проще простого, если бы мой ключ строки начинался с даты. Но мои частые запросы к Hbase ...

mapreduce hbase

вопрос задан: 22 January 2012 18:38

0

ответов

Распределенное модульное тестирование и покрытие кода в Python

В моем текущем проекте действует политика 100% покрытия кода модульными тестами. Наша служба непрерывной интеграции не позволит разработчикам продвигать код без 100% покрытия. По мере роста проекта ...

python unit-testing mapreduce code-coverage distributed

вопрос задан: 20 January 2012 04:06

0

ответов

Могу ли я принудительно запускать свои редукторы (этап копирования) только после завершения всех сопоставлений

У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом. Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...

configuration hadoop mapreduce hadoop-streaming

вопрос задан: 16 January 2012 08:32

0

ответов

Как заставить улей одновременно запускать задания mapreduce?

Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int, v4 int, v5 bigint, v6 int) ...

hadoop mapreduce hive

вопрос задан: 15 January 2012 07:24

0

ответов

Каким было бы хорошее приложение для расширенной версии MapReduce, которая обменивается информацией между картографами?

Я разрабатываю усовершенствование инфраструктуры Spark (http: // www .spark-project.org /). Spark - это проект Калифорнийского университета в Беркли, который быстро выполняет MapReduce в оперативной памяти. Spark построен на Scala. The ...

scala hadoop machine-learning mapreduce computer-vision

вопрос задан: 12 January 2012 23:59

0

ответов

Каков самый быстрый способ программной массовой загрузки данных в HBase?

У меня есть простой текстовый файл с миллионами строк, который требует специального синтаксического анализа, и я хочу его загрузить в таблицу HBase как можно быстрее (с использованием клиента Hadoop или HBase Java). Мой текущий ...

java hadoop mapreduce hbase

вопрос задан: 6 January 2012 06:49

0

ответов

Hadoop: как получить доступ к (многим) фотоизображениям для обработки с помощью map / reduce?

У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной

hadoop mapreduce hdfs

вопрос задан: 6 January 2012 02:50

0

ответов

Класс Hadoop JobConf устарел, требуется обновить пример

Я пишу программы hadoop, и я действительно не хочу играть с устаревшими классами. Нигде в Интернете я не могу найти программы с обновленным классом org.apache.hadoop.conf.Configuration ...

hadoop mapreduce cloudera

вопрос задан: 22 December 2011 12:21

0

ответов

Неверный класс ключа: текст не является IntWritable

Это может показаться глупым вопросом, но я не вижу проблемы в своем типы в моем коде mapreduce для hadoop Как указано в вопросе, проблема в том, что он ожидает IntWritable, но я ...

java hadoop mapreduce

вопрос задан: 16 December 2011 06:12

0

ответов

Передача параметров в функцию map в Hadoop

Я новичок в Hadoop. Я хочу получить доступ к аргументу командной строки из главной функции (Java-программы) внутри функции map класса mapper. Пожалуйста, подскажите, как это можно сделать.

java hadoop mapreduce parameter-passing

вопрос задан: 10 December 2011 14:29

0

ответов

Как создать индекс RavenDB, который возвращает список строк?

У меня есть коллекция документов WineDocument на форма: {"Имя": "Барбикато Мореллино Ди Скансано", "Страна": "Италия", "Регион": "Тоскана", } Мне нужно сделать запрос, чтобы найти все уникальные ...

c# json linq mapreduce ravendb

вопрос задан: 9 December 2011 22:40

0

ответов

Как изменить структуру результатов map-reduce в MongoDB?

Когда я запускаю Map-Reduce на базе данных Mongo, я обычно получаю результаты, похожие на следующие: { _id: , value: { : <первое-значение>, ... } } Есть ли способ ...

mongodb mapreduce

вопрос задан: 7 December 2011 13:42

0

ответов

Как удалить дубликаты записей в MongoDB с помощью MapReduce?

У меня есть очень большая коллекция в MongoDB, и я хочу удалить дубликаты записей из этой коллекции. Первая мысль, пришедшая мне в голову, это удалить индекс и восстановить индекс с помощью dropDups. ...

mongodb mapreduce

вопрос задан: 6 December 2011 19:04