Недавно я начал работать с Hadoop и учился писать задания MapReduce. В Интернете я могу найти примеры и руководства по написанию заданий MapReduce, но все они включают ...
Что я хочу:
У меня есть основная коллекция продуктов, затем я хочу отфильтровать их и поместить в отдельную коллекцию. db.masterproducts.find ({category: "акваланг"}). copyTo (db.newcollection) Of ...
У меня есть два документа, которые выглядят примерно так: Doc
{_id: AAA, creator_id: ..., data: ...
} DataKey
{_id: ..., credits_left: 500, times_used: 0, data_id: AAA
} Я хочу ...
У меня проблемы с переносом головы о том, как map / reduce работает в MongoDB. У меня есть коллекция с полями: areacode, state, county, zip, city, lat, lon, в которой перечислены все почтовые индексы в США вместе ...
У меня есть задание mapreduce, определенное в mapreduce.yaml: mapreduce:
- name: JobName mapper: input_reader: google.appengine.ext.mapreduce.input_readers.DatastoreInputReader handler: handler_name ...
В типичной настройке MapReduce (например, Hadoop) сколько редукторов используется для 1 задачи, например, подсчета слов? Насколько я понимаю, MapReduce от Google означает, что задействован только 1 редуктор. Это ...
Мой вопрос касается программирования mapreduce на java. Предположим, у меня есть пример WordCount.java, стандартной программы mapreduce. Я хочу, чтобы функция карты собирала некоторую информацию и возвращалась к ...
Я пытаюсь выполнить функцию сокращения (MapReduce) в PHPillow, и в настоящее время она недокументирована, однако мне действительно нужно это сделать. Есть ли у кого-нибудь пример реализации функции сокращения в ...
Jeg prøver å forstå datalokaliteten slik den er relatert til Hadoop's Map / Reduce framework. Spesielt prøver jeg å forstå hvilken komponent som håndterer datalokalitet (dvs. er det inngangsformatet?) ...
Можно ли выполнять операции в стиле MapReduce в SpringBatch? У меня есть два этапа пакетной работы. На первом этапе вычисляется среднее значение. На втором этапе каждое значение сравнивается со средним, чтобы определить ...
У нас есть несколько чувствительных к задержкам программы в стиле «конвейера», производительность которых ощутимо снижается при запуске на одном ядре Linux по сравнению с другим. В частности, мы видим лучшую производительность с ...
Я несколько смущен текущим состояние поддержки mapreduce в GAE. Согласно документам, http://code.google.com/p/appengine-mapreduce/ этап reduce еще не поддерживается, но в описании ...
I've been using MapReduce before to perform classical MR operation, the equivalent of GROUP BY in SQL. I was wondering if it would be conceptually possible to perform a JOIN operation with MapReduce. ...
Я пытаюсь осознать это, но это недостаточно гибко . В моем скрипте Python есть словарь словарей списков. (На самом деле это становится немного глубже, но этот уровень не ...
I created a small test database in CouchDB and I'm creating a temporary view in Futon. I wrote the mapper and the reducer. The mapper works, but the check box for the reducer never shows up. I know ...
Я использую пример программы WordCount на Hadoop для обработки большого набора небольших файлов / веб-страниц (примерно 2–3 КБ). Поскольку это далеко от оптимального размера файла для файлов hadoop, программа работает очень медленно. Я ...
У меня есть задание mapreduce, написанное на Python. Программа была успешно протестирована в linux env, но потерпела неудачу, когда я запустил ее под Hadoop. Вот команда задания: hadoop jar $ HADOOP_HOME / contrib / streaming / ...
Довольно странный вопрос, но знает ли кто-нибудь, какой вид сортировки использует MapReduce в части сортировки при перемешивании / сортировке? Я бы подумал, что слияние или вставка (в соответствии со всей парадигмой MapReduce), ...
Я создаю программу для анализа PDF, Файлы DOC и DOCX. Эти файлы хранятся в HDFS. Когда я начинаю свою работу MapReduce, я хочу, чтобы функция карты имела имя файла в качестве ключа и двоичное содержимое ...
This may be a basic question, but I could not find an answer for it on Google.
У меня есть задание по уменьшению карты, которое создает несколько выходных файлов в своем выходном каталоге.
Мое приложение Java выполняет эту работу ...
Я новичок в hadoop и пытаюсь обработать дамп Википедии. Это XML-файл, сжатый с помощью gzip, размером 6,7 ГБ. Я читал, что hadoop поддерживает файлы, сжатые gzip, но может быть обработан картографом только в одном задании ...
Я хочу смоделировать в ruby мою реализацию функции map и reduce для такой системы, как hadoop, чтобы убедиться, что идея хотя бы работает. У меня следующая проблема. У меня есть два списка ...
Я пытаюсь сделать простое уменьшение карты в оболочке Mongo, но функция сокращения никогда не вызывается. Это мой код: db.sellers.mapReduce (function () {emit (this._id, 'Map')}, function (k, ...
У меня возникла странная проблема. Когда я запускаю свое задание Hadoop с большим набором данных (> 1 ТБ сжатых текстовых файлов), некоторые из задач сокращения завершаются сбоем с такими трассировками стека: java.io.IOException: Task: ...
Недавно я изучал механизм планировщика hadoop.
Использование 0.20.2 (нормальная и емкость включена)
Прочитал несколько статей, LATE \ Deadline Scheduler ... Кто-нибудь пробовал?
или есть гид? thx в любом случае
Я использую MongoDB, и мне нужно удалить повторяющиеся записи. У меня есть коллекция листингов, которая выглядит так: (упрощенно) [{"MlsId": "12345" "}, {" MlsId ":" 12345 "}, {" MlsId ":" 23456 "}, {" ...
Есть ли способ сделать следующие в CouchDB? Способ вернуть уникальные, отличные значения по заданному ключу? ВЫБЕРИТЕ РАЗЛИЧНОЕ поле ИЗ таблицы WHERE key = "key1" 'key1' => 'somevalue'
'key1' => '...
У нас есть сайт, который содержит потоковое видео, и мы хотим отобразить три отчета о самых просматриваемых видео за последнюю неделю, месяц и год (скользящее окно). Мы сохраняем документ в ravendb каждый раз ...