Я пытался использовать MapReduce в MongoDB, чтобы сделать, как мне кажется, простую процедуру. Я не знаю, правильный ли это подход, стоит ли мне вообще использовать MapReduce. Я погуглил, какие ключевые слова я...
Я хочу начать использовать Avro с Map Reduce. Может ли кто-нибудь предложить хороший учебник / пример для начала. Я не смог найти в Интернете много информации.
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...
Я новичок в hadoop, я знаком со стилем программирования map-reduce, но теперь я столкнулся с проблемой: иногда мне нужна только карта для задание, и мне нужен только результат карты как результат, ...
У меня есть несколько документов, которые выглядят следующим образом: {userId: 123, msg: {timestamp: 123456, event: "actionA"}} {userId: 123, msg: {timestamp: 123466, event: "actionB"}} и т. д. Карта fn: emit (doc.userId, ...
Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...
Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.
Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это:
1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64MB = размер блока HDFS) ...
Я работаю над функцией appengine-mapreduce и модифицировал демонстрацию, чтобы она соответствовала моим целям.
В основном у меня миллион строк в следующем формате: идентификатор пользователя, время1, время2. Моя цель - найти ...
В новом API (apache.hadoop.mapreduce.KeyValueTextInputFormat), как указать разделитель (разделитель), отличный от табуляции (по умолчанию), для разделения ключа и Ценность. Пример ввода: одна, первая строка
two, ...
Во время выполнения задания hadoop на псевдоузле задача завершается ошибкой и завершается.
Ошибка: попытка задачи_ не удалось сообщить о состоянии в течение 601 секунды. Но та же программа выполняется через Eclipse (локальное задание). Задача: ...
Моя работа не требует сортировки, только агрегирование информации по ключу. Поэтому я думаю, можно ли отключить сортировку всей информации в порядке увеличения производительности. Примечание: я не могу установить редукторы ...
Я установил hadoop 1.0.0 и попробовал подсчет слов пример (одноузловой кластер). На выполнение потребовалось 2 м 48 секунд. Затем я попробовал стандартную программу подсчета слов linux, которая работала за 10 миллисекунд на ...
У меня есть программа на C++, которую я пытаюсь запустить как потоковое задание на hadoop (в ней только mappers, никаких reducers). В то время как простая программа на C++ работает корректно. Другая программа на C++, которая связана с большим количеством
Я новичок в CouchDB и документно-ориентированных базах данных в целом. Я играл с CouchDB и смог познакомиться с созданием документов (с perl) и использованием Map / Reduce ...
Я пытаюсь запустить тесты Terasort и получаю следующее исключение: java.lang.RuntimeException: ошибка при настройке объекта в org.apache.hadoop.util.ReflectionUtils .setJobConf (...
Мне нужно написать задание MapReduce, которое получает все строки в заданном диапазоне дат (скажем, за последний месяц). Это было бы проще простого, если бы мой ключ строки начинался с даты. Но мои частые запросы к Hbase ...
В моем текущем проекте действует политика 100% покрытия кода модульными тестами. Наша служба непрерывной интеграции не позволит разработчикам продвигать код без 100% покрытия. По мере роста проекта ...
У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом.
Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...
Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int,
v4 int, v5 bigint, v6 int) ...
Я разрабатываю усовершенствование инфраструктуры Spark (http: // www .spark-project.org /). Spark - это проект Калифорнийского университета в Беркли, который быстро выполняет MapReduce в оперативной памяти. Spark построен на Scala. The ...
У меня есть простой текстовый файл с миллионами строк, который требует специального синтаксического анализа, и я хочу его загрузить в таблицу HBase как можно быстрее (с использованием клиента Hadoop или HBase Java). Мой текущий ...
У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной
Я пишу программы hadoop, и я действительно не хочу играть с устаревшими классами.
Нигде в Интернете я не могу найти программы с обновленным классом org.apache.hadoop.conf.Configuration ...
Это может показаться глупым вопросом, но я не вижу проблемы в своем типы в моем коде mapreduce для hadoop Как указано в вопросе, проблема в том, что он ожидает IntWritable, но я ...
Я новичок в Hadoop. Я хочу получить доступ к аргументу командной строки из главной функции (Java-программы) внутри функции map класса mapper. Пожалуйста, подскажите, как это можно сделать.
У меня есть коллекция документов WineDocument на форма: {"Имя": "Барбикато Мореллино Ди Скансано", "Страна": "Италия", "Регион": "Тоскана",
} Мне нужно сделать запрос, чтобы найти все уникальные ...
Когда я запускаю Map-Reduce на базе данных Mongo, я обычно получаю результаты, похожие на следующие: { _id: , value: { : <первое-значение>, ... } } Есть ли способ ...
У меня есть очень большая коллекция в MongoDB, и я хочу удалить дубликаты записей из этой коллекции. Первая мысль, пришедшая мне в голову, это удалить индекс и восстановить индекс с помощью dropDups. ...