0
ответов

Способ экспорта результатов из Pig в базу данных

Есть ли способ экспортировать результаты из Pig непосредственно в базу данных, такую ​​как mysql?
вопрос задан: 27 June 2011 03:40
0
ответов

Файлы rsync для hadoop

У меня 6 серверов, и каждый из них содержит множество журналов. Я хотел бы поместить эти журналы в hadoop fs через rsync. Теперь я использую fuse, и rsync записывает непосредственно в fs / mnt / hdfs, установленный на предохранителе. Но есть большой .
вопрос задан: 23 June 2011 06:24
0
ответов

COLLECT_SET () в Hive, хранить дубликаты?

Есть ли способ сохранить дубликаты в собранном наборе в Hive или смоделировать совокупную коллекцию, которую предоставляет Hive, с помощью другого метод? Я хочу объединить все элементы в ...
вопрос задан: 22 June 2011 19:23
0
ответов

Где мне загрузить все необходимые классы для написания заданий Hadoop MapReduce? [закрыто]

Недавно я начал работать с Hadoop и учился писать задания MapReduce. В Интернете я могу найти примеры и руководства по написанию заданий MapReduce, но все они включают ...
вопрос задан: 22 June 2011 17:26
0
ответов

Hadoop Hive Query: Множественное объединение

Как я могу выполнять подвыборки в Hive? Я думаю, что могу совершить действительно очевидную ошибку, которая не так очевидна для меня ... Ошибка, которую я получаю: FAILED: Parse Error: строка 4: 8 не может распознать ввод '...
вопрос задан: 17 June 2011 22:10
0
ответов

Можно ли параллельно добавлять файлы HDFS с нескольких клиентов?

В основном весь вопрос в заголовке. Мне интересно, можно ли добавить файл, расположенный в HDFS, с нескольких компьютеров одновременно? Что-то вроде постоянного хранения потока событий ...
вопрос задан: 17 June 2011 17:40
0
ответов

Como rastrear qual bloco de dados está em qual nó de dados no hadoop?

Se um bloco de dados for replicado, em qual nó de dados ele será replicado? Existe alguma ferramenta para mostrar onde os blocos replicados estão presentes?
вопрос задан: 16 June 2011 12:47
0
ответов

Какое максимальное количество файлов разрешено в каталоге HDFS?

Какое максимальное количество файлов и каталогов разрешено в каталоге HDFS (hadoop)?
вопрос задан: 15 June 2011 14:06
0
ответов

Elastic Map Reduce External Jar

Таким образом, работать с внешними jar-файлами достаточно просто, если использовать hadoop прямо вверх. У вас есть опция -libjars, которая сделает это за вас. Вопрос в том, как это сделать с помощью EMR. Должен быть простой способ ...
вопрос задан: 14 June 2011 00:03
0
ответов

«hadoop namenode -format» возвращает исключение java.net.UnknownHostException

В настоящее время я изучаю hadoop и пытаюсь настроить тест одного узла, как определено в http://hadoop.apache.org/common/docs/current/single_node_setup.html Я настроил ssh (я могу регистрировать без ...
вопрос задан: 10 June 2011 13:47
0
ответов

Как лучше всего поддерживать типы столбцов массива с внешними таблицами в кусте?

Итак, у меня есть внешние таблицы данных с разделителями табуляции. Простая таблица выглядит так: создайте внешнюю таблицу, если категории не существует (строка идентификатора, строка тега, легальная строка, строка изображения, родительская строка, ..
вопрос задан: 7 June 2011 18:45
0
ответов

количество редукторов для 1 задачи в MapReduce

В типичной настройке MapReduce (например, Hadoop) сколько редукторов используется для 1 задачи, например, подсчета слов? Насколько я понимаю, MapReduce от Google означает, что задействован только 1 редуктор. Это ...
вопрос задан: 2 June 2011 17:56
0
ответов

Пример подсчета mapreduce

Мой вопрос касается программирования mapreduce на java. Предположим, у меня есть пример WordCount.java, стандартной программы mapreduce. Я хочу, чтобы функция карты собирала некоторую информацию и возвращалась к ...
вопрос задан: 29 May 2011 07:45
0
ответов

Тестирование Hadoop с использованием MRUnit

Я модернизирую набор существующих модульных тестов Hadoop, которые ранее выполнялись в кластере в памяти (с использованием MiniMRCluster), в MRUnit. Существующие тестовые примеры, по сути, предоставляют входные данные для карты ...
вопрос задан: 28 May 2011 01:01
0
ответов

Потеря соединения клиента Hbase из-за ошибки / hbase

Я схожу с ума: Установлен Hadoop / Hbase, все работает; /opt/jdk1.6.0_24/bin/jps 23261 ThriftServer 22582 QuorumPeerMain 21969 NameNode 23500 иен 23021 HRegionServer 22211 TaskTracker ...
вопрос задан: 27 May 2011 17:03
0
ответов

Может ли модуль отображения Hadoop выдавать несколько ключей на выходе?

Может ли один класс Mapper создать несколько пар ключ-значение (одного типа) за один запуск? Мы выводим пару ключ-значение в преобразователе следующим образом: context.write (key, value); Вот сокращенный (...
вопрос задан: 25 May 2011 18:55
0
ответов

Er inndataformatet ansvarlig for implementering av datalokalitet i Hadoop's MapReduce?

Jeg prøver å forstå datalokaliteten slik den er relatert til Hadoop's Map / Reduce framework. Spesielt prøver jeg å forstå hvilken komponent som håndterer datalokalitet (dvs. er det inngangsformatet?) ...
вопрос задан: 25 May 2011 17:13
0
ответов

MDX support for Hive (Hadoop)

Is there any support for Multidimensional Expressions (MDX) for Hadoop's Hive ?
вопрос задан: 23 May 2011 06:27
0
ответов

Hadoop seems to modify my key object during an iteration over values of a given reduce call

Hadoop Version: 0.20.2 (On Amazon EMR) Problem: I have a custom key that i write during map phase which i added below. During the reduce call, I do some simple aggregation on values for a given key. ...
вопрос задан: 23 May 2011 03:00
0
ответов

Что ближе всего к Apache Hadoop на других языках?

В частности, любые реализации с открытым исходным кодом с любой степенью полезности на следующих языках: 1) C ++ 2) Python 3 ) Ruby 4) C #
вопрос задан: 21 May 2011 22:55
0
ответов

Establishing a connection between R and a Hive (Hadoop) database

Does anyone know how to achieve that? I am assuming that RJDBC would help; but from my (likely naive) understanding, a bit of tweaking is necessary to write or adapt a Hive driver for this. Relevant ...
вопрос задан: 19 May 2011 11:24
0
ответов

Как реализовать Hadoop Mapper в Scala 2.9.0?

Когда я перешел на Scala 2.9.0 с 2.8.1, весь код был исправен, за исключением картографов Hadoop. Поскольку у меня на пути были некоторые объекты-оболочки, я перешел к следующему примеру: ...
вопрос задан: 17 May 2011 08:32
0
ответов

Срок службы распределенного кеша в Hadoop

Когда файлы передаются на узлы с использованием механизма распределенного кеша в задании потоковой передачи Hadoop, удаляет ли система эти файлы после завершения задания? Если они удаляются, что я предполагаю ...
вопрос задан: 12 May 2011 19:30
0
ответов

Обработка большого набора небольших файлов с помощью Hadoop

Я использую пример программы WordCount на Hadoop для обработки большого набора небольших файлов / веб-страниц (примерно 2–3 КБ). Поскольку это далеко от оптимального размера файла для файлов hadoop, программа работает очень медленно. Я ...
вопрос задан: 8 May 2011 23:01
0
ответов

Задание потоковой передачи Hadoop не удалось в python

У меня есть задание mapreduce, написанное на Python. Программа была успешно протестирована в linux env, но потерпела неудачу, когда я запустил ее под Hadoop. Вот команда задания: hadoop jar $ HADOOP_HOME / contrib / streaming / ...
вопрос задан: 5 May 2011 00:50
0
ответов

Интерпретация результатов работы mahout clusterdumper

Я провел кластеризацию тестировать на просканированных страницах (более 25К документов; набор персональных данных). Я сделал кластерный дамп: $ MAHOUT_HOME / bin / mahout clusterdump --seqFileDir output / clusters-1 / --output ...
вопрос задан: 27 April 2011 14:03
0
ответов

Метод перемешивания / сортировки MapReduce

Довольно странный вопрос, но знает ли кто-нибудь, какой вид сортировки использует MapReduce в части сортировки при перемешивании / сортировке? Я бы подумал, что слияние или вставка (в соответствии со всей парадигмой MapReduce), ...
вопрос задан: 25 April 2011 15:05
0
ответов

Достаточно Java для Hadoop [закрыто]

Я был разработчик на C ++ около 10 лет. Мне нужно подобрать Java только для Hadoop. Сомневаюсь, что буду делать что-то еще на Java. Итак, я хотел бы получить список вещей, которые мне нужно было бы поднять. Of ...
вопрос задан: 25 April 2011 11:34
0
ответов

Импорт данных из HDFS в таблицу Hive

У меня есть данные в файле data/2011/01/13/0100/file в HDFS, каждый из этих файлов содержит данные, разделенные табуляцией, скажем, имя, ip, url. Я хочу создать таблицу в Hive и импортировать данные из hdfs, таблица должна ...
вопрос задан: 22 April 2011 23:22
0
ответов

Что делать с пустыми или отсутствующими входными файлами в Apache Pig?

В нашем рабочем процессе используется кластер сокращения эластичной карты AWS для выполнения серии заданий Pig для манипулирования большим объемом данных в агрегированные отчеты. К сожалению, входные данные потенциально несовместимы, ...
вопрос задан: 20 April 2011 23:20