hadoop - список вопросов по программированию hadoop

0

ответов

как включить внешний jar-файл с помощью PIG

Когда я запускаю задание mapreduce с помощью команды hadoop, я использую -libjars для настройки моего jar-файла на кеш и путь к классам. Как сделать что-то подобное в PIG?

apache-pig hadoop

вопрос задан: 3 May 2012 03:42

0

ответов

Как планировать задачи Hadoop Map в многоядерном -8 узле кластер?

У меня есть программа "только карта" (без фазы сокращения ). Размер входного файла достаточно велик для создания 7 картографических задач, и я убедился, что, просмотрев выходные данные, мы получили от (часть -000 до части 006 ). Итак, мой...

cloudera hadoop mapreduce

вопрос задан: 29 April 2012 15:47

0

ответов

Java Hadoop :Как создать преобразователи, которые принимают в качестве входных файлов файлы и выдают на выходе количество строк в каждом файле?

Я новичок в Hadoop, и мне удалось просто запустить пример wordCount:http://hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.htmlПредположим, у нас есть папка с 3 файлами. Я хочу иметь один...

distributed hadoop java mapreduce

вопрос задан: 28 April 2012 23:53

0

ответов

Перекрестное произведение в MapReduce

Я хотел бы выполнить дорогостоящую операцию перекрестного произведения двух наборов данных в Hadoop, используя Java MapReduce. Например, у меня есть записи из набора данных A и набора данных B, и мне бы хотелось, чтобы каждая запись...

hadoop mapreduce

вопрос задан: 28 April 2012 17:41

0

ответов

MPI, GPU и Hadoop, в чем основное различие между этими тремя параллелизмами?

Я знаю некоторые алгоритмы машинного обучения, такие как случайный лес, которые по своей природе должны реализовываться параллельно. Я делаю домашнюю работу и нахожу эти три фреймворка параллельного программирования, так что...

gpu hadoop mpi

вопрос задан: 19 April 2012 21:58

0

ответов

Hadoop MapReduce предоставляет вложенные каталоги в качестве входных данных для задания

Я работаю над заданием, которое обрабатывает вложенную структуру каталогов, содержащую файлы на нескольких уровнях :один/ ├── три/ │ └── четыре/ │ ├── baz.txt │ ├── bleh.txt │ └── foo.txt └──...

directory-walk hadoop nested mapreduce

вопрос задан: 19 April 2012 08:53

0

ответов

Как запустить оболочку HBase на удаленном кластере

Я запускаю HBase в псевдораспределенном режиме на своей рабочей станции. У нас также есть HBase, работающий в кластере. Используя оболочку HBase, я хочу получить доступ к экземпляру HBase, работающему в кластере...

apache-zookeeper cloudera configuration hadoop hbase

вопрос задан: 18 April 2012 23:24

0

ответов

как загрузить tar-архив в свинью

у меня есть файлы журнала, которые находятся в tar-архиве (access.logs.tar.gz )загружены в мой кластер hadoop. Мне было интересно, есть ли у них способ напрямую загрузить его в свинью, не растаривая?

apache-pig hadoop

вопрос задан: 17 April 2012 04:21

0

ответов

Пример Hadoop WordCount застрял на карте 100% уменьшить 0%

[hadoop -1.0.2] → hadoop jar hadoop -примеры -1.0.2.jar количество слов /user/abhinav/input /user/abhinav/output Предупреждение :$HADOOP _HOME устарело. ****hdfs ://локальный хост :54310/пользователь/абхинав/ввод 04/12/...

hadoop mapreduce

вопрос задан: 15 April 2012 22:47

0

ответов

Как отформатировать и добавить файлы в hadoop после сбоя?

Я запускаю кластер с одним-узлом, используя версию 1.0.1 Hadoop и Ubuntu Linux 11.10. Я запускал простой скрипт, когда он рухнул, вероятно, из-за того, что мой компьютер заснул. Я попытался переформатировать...

hadoop

вопрос задан: 15 April 2012 13:35

0

ответов

запуск программного обеспечения Hadoop на офисных компьютерах (во время простоя)

Существует ли проект, помогающий настроить кластер Hadoop на офисных компьютерах, когда они простаивают? Я хотел бы поэкспериментировать с Hadoop/MR/hbase, но у меня нет доступа к 5-10 компьютерам. Компьютеры за работой...

cluster-computing hadoop hbase mapreduce

вопрос задан: 14 April 2012 05:06

0

ответов

Различия между API-интерфейсами hflush и hsync в HDFS

Может ли кто-нибудь выделить технические детали и когда какие из них использовать.

api filesystems hadoop hdfs

вопрос задан: 12 April 2012 10:21

0

ответов

«Превышен лимит накладных расходов GC» на узле данных Hadoop.20

Я искал и не нашел много информации, связанной с завершением процессов узла данных Hadoop из-за превышения лимита накладных расходов GC, поэтому я решил опубликовать вопрос. Мы проводим тест, где нам нужно...

garbage-collection hadoop

вопрос задан: 11 April 2012 15:56

0

ответов

Вычисление медианы в уменьшении карты

Может ли кто-нибудь привести пример вычисления медианы/квантилей в уменьшении карты? Мое понимание медианы Datafu заключается в том, что преобразователи 'n' сортируют данные и отправляют данные в редуктор "1", который...

apache-pig hadoop statistics mapreduce median

вопрос задан: 11 April 2012 15:53

0

ответов

Запуск каталога локальной файловой системы в качестве входных данных для картографа в кластере

Я дал входные данные для картографа из локальной файловой системы. Он успешно работает из eclipse, но не из кластер, так как он не может найти локальный входной путь, говоря, что :входной путь не...

hadoop mapreduce

вопрос задан: 11 April 2012 14:11

0

ответов

Как использовать автоинкремент-ID при экспорте в Sqoop

У меня есть текстовый файл-, разделенный табуляцией, в HDFS, и я хочу экспортировать его в таблицу MySQL. Поскольку строки в текстовом файле не имеют числовых идентификаторов, как мне автоматически экспортировать в таблицу с идентификатором...

hadoop sqoop

вопрос задан: 11 April 2012 13:45

0

ответов

Передавать каталоги, а не файлы, в потоковую передачу Hadoop-?

По моей работе мне приходится анализировать множество исторических наборов журналов. Отдельные клиенты (а их тысячи)могут иметь сотни подкаталогов журналов, разбитых по дате. Например, :журналы/Клиент_Один/...

hadoop-streaming hadoop

вопрос задан: 10 April 2012 20:08

0

ответов

HBase:Нужен ли мне jobtracker/tasktracker

Если я не выполняю какие-либо задачи сопоставления/уменьшения, все же должны быть запущены JobTracker/TaskTrackers для некоторой внутренней зависимости HBase?

hadoop hbase mapreduce

вопрос задан: 4 April 2012 07:25

0

ответов

Что лучше всего использовать для объединения соединений Hive JDBC

Я использую драйвер Hive JDBC для выполнения sql-подобного запроса к моему хранилищу данных HDFS. Я пытался использовать c3p0 для обработки пула соединений. Я не уверен, что это правильный подход, так как запрос Hive ...

connection-pooling hadoop hive jdbc hdfs

вопрос задан: 3 April 2012 16:24

0

ответов

Выходной формат JSON для результатов запроса Hive

Есть ли способ преобразовать результат запроса Hive в формат JSON?

hadoop hive

вопрос задан: 3 April 2012 14:46

0

ответов

Подсчет в Hadoop Hive

Я хочу подсчитать значения, похожие на карту, где ключом будет значение в столбце таблицы Hive и соответствующее значение это счет. Например, для таблицы ниже: +-------+-------+ | Кол 1 | ...

hadoop hive

вопрос задан: 3 April 2012 14:07

0

ответов

Как разрешить «файл может быть реплицирован только на 0 узлов вместо 1» в Hadoop?

У меня есть простая задача Hadoop, которая сканирует веб-сайты и кэширует их в HDFS. Mapper проверяет, существует ли уже URL-адрес в HDFS, и если да, использует его, в противном случае загружает страницу и сохраняет ее в ...

cloudera hadoop

вопрос задан: 3 April 2012 04:16

0

ответов

Как использовать код MATLAB в картографе (Hadoop )?

У меня есть код Matlab, который обрабатывает изображения. Я хочу создать картограф Hadoop, использующий этот код. Я наткнулся на следующие решения, но не уверен, какое из них лучше (, так как очень сложно...

hadoop java matlab mapreduce

вопрос задан: 31 March 2012 14:47

0

ответов

Hadoop для файлов JSON

Не могли бы вы подсказать, как лучше всего работать с файлами, содержащими записи JSON и Hadoop?

hadoop json

вопрос задан: 30 March 2012 11:57

0

ответов

Hadoop :Простой способ получить объект в качестве выходного значения без интерфейса с возможностью записи

Я пытаюсь использовать hadoop для обучения нескольких моделей. Мои данные достаточно малы, чтобы поместиться в памяти, поэтому я хочу, чтобы одна модель обучалась для каждой задачи карты. Моя проблема в том, что когда я закончу...

hadoop java serialization weka

вопрос задан: 29 March 2012 13:12

0

ответов

Самый эффективный способ создать путь в zookeeper, где корневые элементы пути могут существовать или не существовать?

Представьте себе путь «/root/child1/child2/child3». Представьте в zookeeper, что, возможно, часть этого существует, скажем, «/root/child1». В zookeeper нет эквивалента «mkdir -p»; Кроме того, ZooKeeper.multi() будет ...

apache-zookeeper hadoop java

вопрос задан: 28 March 2012 01:44

0

ответов

PIG, как подсчитать количество строк в псевдониме

Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG: logs = LOAD 'log' logs_w_one = журналы foreach генерируют 1 как один; logs_group = группа logs_w_one все; logs_count = foreach ...

apache-pig hadoop

вопрос задан: 27 March 2012 16:29

0

ответов

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS

Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | сортировать | python reducer.py Однако, когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не ...

amazon-web-services elastic-map-reduce hadoop python mapreduce

вопрос задан: 26 March 2012 23:15

0

ответов

Мобильное приложение Hadoop

Мы студенты и планируем портировать Hadoop на платформу Android. Может ли кто-нибудь предложить приложение Hadoop, которое оправдало бы использование инфраструктуры MapReduce в мобильном приложении?

android hadoop

вопрос задан: 26 March 2012 14:15