0
ответов

выберите количество отдельных, используя латынь свиньи

Мне нужна помощь с этим скриптом свиньи. Я получаю только одну пластинку. Я выбираю 2 столбца и делаю подсчет (отдельный) в другом, а также использую предложение where like, чтобы найти конкретный ...
вопрос задан: 12 February 2012 15:01
0
ответов

Является ли что-то, записанное в HDFS или Hbase, сразу же видимым для всех других узлов в кластере Hadoop?

Пока выполняется задание Hadoop или в процессе, если я что-то напишу в HDFS или H база тогда будет это данные будут видны всем узлам кластера 1.) немедленно? 2.) Если не сразу, то после того, как ...
вопрос задан: 12 February 2012 12:00
0
ответов

Как использовать Sqoop в программе Java?

Я знаю, как использовать sqoop через командную строку. Но не знаю, как вызвать команду sqoop с помощью Java-программ. Может ли кто-нибудь дать представление о коде?
вопрос задан: 10 February 2012 14:50
0
ответов

Как указать разделитель KeyValueTextInputFormat в Hadoop-.20 api?

В новом API (apache.hadoop.mapreduce.KeyValueTextInputFormat), как указать разделитель (разделитель), отличный от табуляции (по умолчанию), для разделения ключа и Ценность. Пример ввода: одна, первая строка two, ...
вопрос задан: 10 February 2012 04:19
0
ответов

Интеграция Hive / HBase - Сеанс Zookeeper закрывается немедленно

У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором запущен единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального hadoop, выполняется ...
вопрос задан: 6 February 2012 14:04
0
ответов

Сортировка по значению в Hadoop из файла

У меня есть файл, содержащий String, затем пробел и затем число в каждой строке. Пример: Строка1: Слово 2 Строка2 : Слово1 8 Строка3: Word2 1 Мне нужно отсортировать числа в порядке убывания, а затем поместить ...
вопрос задан: 3 February 2012 18:18
0
ответов

переопределение log4j.properties в hadoop

Как переопределить стандартные свойства log4j.properties в hadoop? Если я устанавливаю hadoop.root.logger=WARN,console, он не печатает логи на консоли, тогда как я хочу, чтобы он не печатал ...
вопрос задан: 3 February 2012 05:45
0
ответов

Задание Hadoop: Задача не сообщает о состоянии в течение 601 секунды

Во время выполнения задания hadoop на псевдоузле задача завершается ошибкой и завершается. Ошибка: попытка задачи_ не удалось сообщить о состоянии в течение 601 секунды. Но та же программа выполняется через Eclipse (локальное задание). Задача: ...
вопрос задан: 2 February 2012 08:28
0
ответов

Обновление файла Hadoop HDFS

Я новичок в Hadoop. Я читал, что HDFS - это в основном «писать один раз, читать каждый раз». У меня есть случай использования, когда мне, возможно, придется внести изменения в файлы, хранящиеся в HDFS. У меня ...
вопрос задан: 1 February 2012 22:38
0
ответов

Можно ли отключить сортировку в hadoop?

Моя работа не требует сортировки, только агрегирование информации по ключу. Поэтому я думаю, можно ли отключить сортировку всей информации в порядке увеличения производительности. Примечание: я не могу установить редукторы ...
вопрос задан: 31 January 2012 18:22
0
ответов

HDFS против GridFS: когда какую использовать?

HDFS и GridFS - две отличные технологии для распределенного сохранения файлов, но в чем их отличия? Какие типы проблем лучше подходят для каждой из них?
вопрос задан: 31 January 2012 09:15
0
ответов

Объявление переменной и схемы в PIG

как объявить переменную в PIG? Предположим, я хочу, чтобы целое число имело значения как 10, как я могу объявить его в скрипте? И как схема может быть повторно использована?
вопрос задан: 31 January 2012 06:41
0
ответов

Медленные передачи в Jetty с кодировкой передачи chunked при определенном размере буфера

Я исследую проблему производительности в Jetty 6.1.26. Jetty использует Transfer-Encoding: chunked, и в зависимости от размера используемого буфера это может быть очень медленным при локальной передаче. I'...
вопрос задан: 31 January 2012 04:41
0
ответов

Как установить Cloudera Hue на Mac OS X Lion?

Кто-нибудь пробовал это? Google показывает полную пустоту, и до сих пор это был трудный процесс (я новичок в создании, муравей и т. Д.). После скачивания множества зависимостей, некоторые откровенно неразумные ...
вопрос задан: 30 January 2012 00:56
0
ответов

Производительность Hadoop

Я установил hadoop 1.0.0 и попробовал подсчет слов пример (одноузловой кластер). На выполнение потребовалось 2 м 48 секунд. Затем я попробовал стандартную программу подсчета слов linux, которая работала за 10 миллисекунд на ...
вопрос задан: 29 January 2012 22:25
0
ответов

потоковая программа на c++ и общие библиотеки

У меня есть программа на C++, которую я пытаюсь запустить как потоковое задание на hadoop (в ней только mappers, никаких reducers). В то время как простая программа на C++ работает корректно. Другая программа на C++, которая связана с большим количеством
вопрос задан: 28 January 2012 11:28
0
ответов

форматы файлов, которые можно читать с помощью PIG

Какие форматы файлов можно читать с помощью PIG? Как их хранить в разных форматах? Скажем, у нас есть файл CSV, и я хочу сохранить его как файл MXL, как это можно сделать? Всякий раз, когда мы используем команду STORE ...
вопрос задан: 26 January 2012 11:03
0
ответов

javax.management.InstanceAlreadyExistsException when using hadoop MiniDFSCluster

Я использую MiniDFSCluster для проведения junit тестов. Теперь я просто запускаю и закрываю кластер, junit работает зелено. Но я получаю это исключение: javax.management.InstanceAlreadyExistsException: MXBean уже ...
вопрос задан: 24 January 2012 18:24
0
ответов

Разработка схемы HBase для наилучшей поддержки конкретных запросов

У меня есть вопрос, связанный с проектированием схемы HBase. Проблема довольно проста - я храню «уведомления» в hbase, каждое из которых имеет статус («новые», «просмотренные» и «прочитанные»). Вот API, которые мне нужны ...
вопрос задан: 24 January 2012 07:45
0
ответов

Hadoop: Ошибка при настройке объекта

Я пытаюсь запустить тесты Terasort и получаю следующее исключение: java.lang.RuntimeException: ошибка при настройке объекта в org.apache.hadoop.util.ReflectionUtils .setJobConf (...
вопрос задан: 24 January 2012 00:06
0
ответов

Установка уровня ведения журнала в Hadoop на WARN

Я пробовал множество способов установить уровень ведения журнала в Hadoop на WARN, но каждый раз терпел неудачу. Во-первых, я попытался настроить файл log4j.properties, просто заменив «INFO» на «WARN» ...
вопрос задан: 23 January 2012 17:08
0
ответов

как использовать hadoop для веб-приложения?

Я работаю над веб-приложением для социальных сетей, которое использует веб-сервер Apache и сервер MYSQL для базы данных с фреймворками codeigniter MVC. Я не знаю, как интегрировать Hadoop в эту ...
вопрос задан: 20 January 2012 16:55
0
ответов

как дать собственное имя выходным файлам hadoop

Мне нужны выходные файлы в формате 2012117-part-r-00000. В основном я хочу, чтобы к выходному файлу была добавлена ​​дата, чтобы я мог расположить файлы в соответствии с датой. Я посмотрел ...
вопрос задан: 17 January 2012 20:45
0
ответов

Могу ли я принудительно запускать свои редукторы (этап копирования) только после завершения всех сопоставлений

У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом. Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...
вопрос задан: 16 January 2012 08:32
0
ответов

Clojure Futures в контексте моделей параллелизма Scala

Привет, ребята! После знакомства с Scala Actors и Clojure Futures я почувствовал, что оба языка отлично поддерживают многоядерную обработку данных. Однако я все еще не смог ...
вопрос задан: 16 January 2012 02:11
0
ответов

Как заставить улей одновременно запускать задания mapreduce?

Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int, v4 int, v5 bigint, v6 int) ...
вопрос задан: 15 January 2012 07:24
0
ответов

Каким было бы хорошее приложение для расширенной версии MapReduce, которая обменивается информацией между картографами?

Я разрабатываю усовершенствование инфраструктуры Spark (http: // www .spark-project.org /). Spark - это проект Калифорнийского университета в Беркли, который быстро выполняет MapReduce в оперативной памяти. Spark построен на Scala. The ...
вопрос задан: 12 January 2012 23:59
0
ответов

Какой может быть процедура / код для удаления «строкового выражения» из файла с помощью Apache Pig?

A = load '/home/wrdtest.txt'; B = foreach A сгенерировать сглаживание (TOKENIZE ((chararray) $ 0)) как слово; C = фильтровать B по слову! = 'The'; D = группа C по словам; E = foreach D генерирует COUNT (C) как count, group ...
вопрос задан: 12 January 2012 05:36
0
ответов

Каков самый быстрый способ программной массовой загрузки данных в HBase?

У меня есть простой текстовый файл с миллионами строк, который требует специального синтаксического анализа, и я хочу его загрузить в таблицу HBase как можно быстрее (с использованием клиента Hadoop или HBase Java). Мой текущий ...
вопрос задан: 6 January 2012 06:49
0
ответов

Hadoop: как получить доступ к (многим) фотоизображениям для обработки с помощью map / reduce?

У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной
вопрос задан: 6 January 2012 02:50