0
ответов

как включить внешний jar-файл с помощью PIG

Когда я запускаю задание mapreduce с помощью команды hadoop, я использую -libjars для настройки моего jar-файла на кеш и путь к классам. Как сделать что-то подобное в PIG?
вопрос задан: 3 May 2012 03:42
0
ответов

Рекомендации с использованием R с SimpleDB или BigQuery или с использованием PHP с SimpleDB

В настоящее время я работаю над системой, которая генерирует рекомендации по продуктам, например, на Amazon: «Люди, купившие это, также купили это ..» Текущий сценарий: Извлеките Google Аналитические данные ...
вопрос задан: 30 April 2012 18:24
0
ответов

Как планировать задачи Hadoop Map в многоядерном -8 узле кластер?

У меня есть программа "только карта" (без фазы сокращения ). Размер входного файла достаточно велик для создания 7 картографических задач, и я убедился, что, просмотрев выходные данные, мы получили от (часть -000 до части 006 ). Итак, мой...
вопрос задан: 29 April 2012 15:47
0
ответов

Java Hadoop :Как создать преобразователи, которые принимают в качестве входных файлов файлы и выдают на выходе количество строк в каждом файле?

Я новичок в Hadoop, и мне удалось просто запустить пример wordCount:http://hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.htmlПредположим, у нас есть папка с 3 файлами. Я хочу иметь один...
вопрос задан: 28 April 2012 23:53
0
ответов

Перекрестное произведение в MapReduce

Я хотел бы выполнить дорогостоящую операцию перекрестного произведения двух наборов данных в Hadoop, используя Java MapReduce. Например, у меня есть записи из набора данных A и набора данных B, и мне бы хотелось, чтобы каждая запись...
вопрос задан: 28 April 2012 17:41
0
ответов

MPI, GPU и Hadoop, в чем основное различие между этими тремя параллелизмами?

Я знаю некоторые алгоритмы машинного обучения, такие как случайный лес, которые по своей природе должны реализовываться параллельно. Я делаю домашнюю работу и нахожу эти три фреймворка параллельного программирования, так что...
вопрос задан: 19 April 2012 21:58
0
ответов

Hadoop MapReduce предоставляет вложенные каталоги в качестве входных данных для задания

Я работаю над заданием, которое обрабатывает вложенную структуру каталогов, содержащую файлы на нескольких уровнях :один/ ├── три/ │ └── четыре/ │ ├── baz.txt │ ├── bleh.txt │ └── foo.txt └──...
вопрос задан: 19 April 2012 08:53
0
ответов

Как запустить оболочку HBase на удаленном кластере

Я запускаю HBase в псевдораспределенном режиме на своей рабочей станции. У нас также есть HBase, работающий в кластере. Используя оболочку HBase, я хочу получить доступ к экземпляру HBase, работающему в кластере...
вопрос задан: 18 April 2012 23:24
0
ответов

как загрузить tar-архив в свинью

у меня есть файлы журнала, которые находятся в tar-архиве (access.logs.tar.gz )загружены в мой кластер hadoop. Мне было интересно, есть ли у них способ напрямую загрузить его в свинью, не растаривая?
вопрос задан: 17 April 2012 04:21
0
ответов

Пример Hadoop WordCount застрял на карте 100% уменьшить 0%

[hadoop -1.0.2] → hadoop jar hadoop -примеры -1.0.2.jar количество слов /user/abhinav/input /user/abhinav/output Предупреждение :$HADOOP _HOME устарело. ****hdfs ://локальный хост :54310/пользователь/абхинав/ввод 04/12/...
вопрос задан: 15 April 2012 22:47
0
ответов

Как отформатировать и добавить файлы в hadoop после сбоя?

Я запускаю кластер с одним-узлом, используя версию 1.0.1 Hadoop и Ubuntu Linux 11.10. Я запускал простой скрипт, когда он рухнул, вероятно, из-за того, что мой компьютер заснул. Я попытался переформатировать...
вопрос задан: 15 April 2012 13:35
0
ответов

запуск программного обеспечения Hadoop на офисных компьютерах (во время простоя)

Существует ли проект, помогающий настроить кластер Hadoop на офисных компьютерах, когда они простаивают? Я хотел бы поэкспериментировать с Hadoop/MR/hbase, но у меня нет доступа к 5-10 компьютерам. Компьютеры за работой...
вопрос задан: 14 April 2012 05:06
0
ответов

Различия между API-интерфейсами hflush и hsync в HDFS

Может ли кто-нибудь выделить технические детали и когда какие из них использовать.
вопрос задан: 12 April 2012 10:21
0
ответов

«Превышен лимит накладных расходов GC» на узле данных Hadoop.20

Я искал и не нашел много информации, связанной с завершением процессов узла данных Hadoop из-за превышения лимита накладных расходов GC, поэтому я решил опубликовать вопрос. Мы проводим тест, где нам нужно...
вопрос задан: 11 April 2012 15:56
0
ответов

Вычисление медианы в уменьшении карты

Может ли кто-нибудь привести пример вычисления медианы/квантилей в уменьшении карты? Мое понимание медианы Datafu заключается в том, что преобразователи 'n' сортируют данные и отправляют данные в редуктор "1", который...
вопрос задан: 11 April 2012 15:53
0
ответов

Запуск каталога локальной файловой системы в качестве входных данных для картографа в кластере

Я дал входные данные для картографа из локальной файловой системы. Он успешно работает из eclipse, но не из кластер, так как он не может найти локальный входной путь, говоря, что :входной путь не...
вопрос задан: 11 April 2012 14:11
0
ответов

Как использовать автоинкремент-ID при экспорте в Sqoop

У меня есть текстовый файл-, разделенный табуляцией, в HDFS, и я хочу экспортировать его в таблицу MySQL. Поскольку строки в текстовом файле не имеют числовых идентификаторов, как мне автоматически экспортировать в таблицу с идентификатором...
вопрос задан: 11 April 2012 13:45
0
ответов

Передавать каталоги, а не файлы, в потоковую передачу Hadoop-?

По моей работе мне приходится анализировать множество исторических наборов журналов. Отдельные клиенты (а их тысячи)могут иметь сотни подкаталогов журналов, разбитых по дате. Например, :журналы/Клиент_Один/...
вопрос задан: 10 April 2012 20:08
0
ответов

HBase:Нужен ли мне jobtracker/tasktracker

Если я не выполняю какие-либо задачи сопоставления/уменьшения, все же должны быть запущены JobTracker/TaskTrackers для некоторой внутренней зависимости HBase?
вопрос задан: 4 April 2012 07:25
0
ответов

Что лучше всего использовать для объединения соединений Hive JDBC

Я использую драйвер Hive JDBC для выполнения sql-подобного запроса к моему хранилищу данных HDFS. Я пытался использовать c3p0 для обработки пула соединений. Я не уверен, что это правильный подход, так как запрос Hive ...
вопрос задан: 3 April 2012 16:24
0
ответов

Выходной формат JSON для результатов запроса Hive

Есть ли способ преобразовать результат запроса Hive в формат JSON?
вопрос задан: 3 April 2012 14:46
0
ответов

Подсчет в Hadoop Hive

Я хочу подсчитать значения, похожие на карту, где ключом будет значение в столбце таблицы Hive и соответствующее значение это счет. Например, для таблицы ниже: +-------+-------+ | Кол 1 | ...
вопрос задан: 3 April 2012 14:07
0
ответов

Как разрешить «файл может быть реплицирован только на 0 узлов вместо 1» в Hadoop?

У меня есть простая задача Hadoop, которая сканирует веб-сайты и кэширует их в HDFS. Mapper проверяет, существует ли уже URL-адрес в HDFS, и если да, использует его, в противном случае загружает страницу и сохраняет ее в ...
вопрос задан: 3 April 2012 04:16
0
ответов

Как использовать код MATLAB в картографе (Hadoop )?

У меня есть код Matlab, который обрабатывает изображения. Я хочу создать картограф Hadoop, использующий этот код. Я наткнулся на следующие решения, но не уверен, какое из них лучше (, так как очень сложно...
вопрос задан: 31 March 2012 14:47
0
ответов

Hadoop для файлов JSON

Не могли бы вы подсказать, как лучше всего работать с файлами, содержащими записи JSON и Hadoop?
вопрос задан: 30 March 2012 11:57
0
ответов

Hadoop :Простой способ получить объект в качестве выходного значения без интерфейса с возможностью записи

Я пытаюсь использовать hadoop для обучения нескольких моделей. Мои данные достаточно малы, чтобы поместиться в памяти, поэтому я хочу, чтобы одна модель обучалась для каждой задачи карты. Моя проблема в том, что когда я закончу...
вопрос задан: 29 March 2012 13:12
0
ответов

Самый эффективный способ создать путь в zookeeper, где корневые элементы пути могут существовать или не существовать?

Представьте себе путь «/root/child1/child2/child3». Представьте в zookeeper, что, возможно, часть этого существует, скажем, «/root/child1». В zookeeper нет эквивалента «mkdir -p»; Кроме того, ZooKeeper.multi() будет ...
вопрос задан: 28 March 2012 01:44
0
ответов

PIG, как подсчитать количество строк в псевдониме

Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG: logs = LOAD 'log' logs_w_one = журналы foreach генерируют 1 как один; logs_group = группа logs_w_one все; logs_count = foreach ...
вопрос задан: 27 March 2012 16:29
0
ответов

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS

Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | сортировать | python reducer.py Однако, когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не ...
вопрос задан: 26 March 2012 23:15
0
ответов

Мобильное приложение Hadoop

Мы студенты и планируем портировать Hadoop на платформу Android. Может ли кто-нибудь предложить приложение Hadoop, которое оправдало бы использование инфраструктуры MapReduce в мобильном приложении?
вопрос задан: 26 March 2012 14:15