0
ответов

Отладка в PIG UDF

Я новичок в Hadoop/PIG. У меня есть основной вопрос. Есть ли у нас средство ведения журнала в PIG UDF? Я написал UDF, который мне нужно проверить Мне нужно зарегистрировать определенные операторы, чтобы проверить поток. Есть ли ...
вопрос задан: 12 June 2012 21:17
0
ответов

Как лучше всего запускать Map/Reduce на данных из Mongo?

У меня есть большая база данных Mongo (100 ГБ), размещенная в облаке (MongoLab или MongoHQ). Я хотел бы выполнить некоторые задачи Map/Reduce для данных, чтобы вычислить некоторую дорогостоящую статистику, и мне было интересно, что за ...
вопрос задан: 12 June 2012 10:01
0
ответов

Конфигурация Hadoop: mapred.* vs mapreduce.*

Я заметил, что существует два набора параметров конфигурации Hadoop: один с mapred.*, а другой с mapreduce.. Я предполагаю, что это может быть связано со старым API против нового API, но если я не ошибаюсь, ...
вопрос задан: 12 June 2012 05:09
0
ответов

Способ чтения данных таблицы из Mysql в Pig.

Все знают, что Pig поддерживает DBStorage, но они поддерживают только результаты загрузки из Pig в mysql, например STORE data INTO DBStorage('com.mysql.jdbc.Driver ', 'dbc:mysql://host/db', '...
вопрос задан: 11 June 2012 04:29
0
ответов

Хранение результатов UNION в PIG в одном файле

У меня есть скрипт PIG, который выдает четыре результата Я хочу сохранить их все в одном файле. Я пытаюсь использовать UNION, однако, когда я использую UNION, я получаю четыре файла part-m-00000, part-m-00001, part-m-00002, ...
вопрос задан: 8 June 2012 23:02
0
ответов

HDFS: Как вы рекурсивно составляете список файлов?

Как с помощью Java составить список всех файлов (рекурсивно) по определенному пути в HDFS. Я зашел в API и заметил FileSystem.listFiles(Path,boolean), но похоже, что такого метода не существует...
вопрос задан: 8 June 2012 00:51
0
ответов

Как работать с BIG DATA Data Margin/Fact Table? ( 240 миллионов строк )

У нас есть клиент BI, который ежемесячно генерирует около 40 миллионов строк в своих таблицах базы данных о продажах, созданных на основе их транзакций продаж. Они хотят создать витрину данных о продажах с помощью своих ...
вопрос задан: 7 June 2012 19:13
0
ответов

зачем нам HADoop для гипертаблицы

Я написал сканер на C ++ и ищу распределенное хранилище данных, я нашел 2 1) hbase 2) гипертаблицы являются реализацией большой таблицы, и я только что рассмотрел гипертаблицу .. потому что она ...
вопрос задан: 4 June 2012 23:34
0
ответов

методы настройки и очистки Mapper/Reducer в Hadoop MapReduce

Вызываются ли методы настройки и очистки в каждой задаче сопоставления и редьюсера соответственно? Или они вызываются только один раз в начале общих заданий картографа и редуктора?
вопрос задан: 4 June 2012 22:15
0
ответов

как найти файл из blockName в HDFS hadoop

Какой самый простой способ найти файл, связанный с блоком в HDFS, по имени/идентификатору блока
вопрос задан: 4 June 2012 12:40
0
ответов

WARN snappy.LoadSnappy: Не загружена родная библиотека Snappy

что бы я ни делал, я не могу избавиться от этой ошибки. Я знаю, что snappy — это быстрая и, следовательно, предпочтительная библиотека сжатия/распаковки по сравнению с другими вариантами. Я хотел бы использовать эту библиотеку для своего...
вопрос задан: 4 June 2012 07:55
0
ответов

Probleem om tasktracker in hadoop onder windows te begin

Ek probeer hadoop onder windows gebruik en loop 'n probleem raak wanneer ek tasktracker wil begin. Byvoorbeeld: $ bin / start-all.sh dan skryf die logboeke: 2011-06-08 16: 32: 18,157 FOUT org ....
вопрос задан: 1 June 2012 18:01
0
ответов

Настройка временной метки HBase

У меня возникли проблемы с установкой временной метки строки с помощью java API. Когда я пытаюсь добавить значение метки времени в конструктор put (или в put.add()), ничего не происходит, и после чтения строк из таблицы я получаю...
вопрос задан: 31 May 2012 11:48
0
ответов

java.sql.SQLException: org.apache.thrift.transport.TTransportException в улье?

Я пытаюсь создать таблицу в улье с помощью java. Я обнаружил java.sql.SQLException: org.apache.thrift.transport.TTransportException при выполнении моего кода. Вот мой код public void createTable(...
вопрос задан: 31 May 2012 10:02
0
ответов

Создание всех полей из псевдонима после JOIN в Pig

Я хотел бы выполнить эквивалент «сохранить все a в A, где a.field == b.field для некоторого b в B» в Apache Pig. Я реализую это так: AB_joined = JOIN A по полю, B по полю; A2 = ...
вопрос задан: 30 May 2012 23:23
0
ответов

Поиск подключенных компонентов с помощью Hadoop/MapReduce

Мне нужно найти подключенные компоненты для огромного набора данных. (График ненаправленный) Одним из очевидных вариантов является MapReduce. Но я новичок в MapReduce, и у меня мало времени, чтобы разобраться с ним и написать код...
вопрос задан: 20 May 2012 21:30
0
ответов

Hadoop и HBase

привет, я новичок в hbase и hadoop. Я не мог найти Вот почему мы используем Hadoop с hbase.Я знаю, что Hadoop — это файловая система, но я читал, что мы можем использовать hbase без Hadoop, так почему мы используем Hadoop?.. ,
вопрос задан: 19 May 2012 12:05
0
ответов

hadoop: разница между редуктором 0 и редуктором идентичности?

Я просто пытаюсь подтвердить свое понимание разницы между редуктором 0 и редуктором идентичности. 0 редуктор означает, что шаг уменьшения будет пропущен, а вывод mapper будет окончательным выходом Тождество...
вопрос задан: 17 May 2012 05:44
0
ответов

Сгладить кортеж как мешок

Мой набор данных выглядит следующим образом: ( A, (1 ,2) ) ( B, (2,9)) Я хотел бы «сгладить» кортежи в Pig, в основном повторяя каждую запись для каждого значения, найденного во внутреннем кортеже, так, чтобы...
вопрос задан: 15 May 2012 22:00
0
ответов

Как я могу объединить два файла в Hadoop в один, используя оболочку Hadoop FS?

Я работаю с Hadoop 0.20.2 и хотел бы объединить два файла в один с помощью команды оболочки -cat, если это возможно (источник: http://hadoop.apache.org/common/docs/r0.19.2/hdfs_shell .html) Вот...
вопрос задан: 15 May 2012 19:43
0
ответов

hbase не может найти существующую таблицу

я настроил кластер hbase для хранения данных из opentsdb. Недавно из-за перезагрузки некоторых узлов hbase потерял таблицу «tsdb». Я все еще могу это сделать на странице главного узла hbase, но когда я нажимаю на нее, она...
вопрос задан: 14 May 2012 16:55
0
ответов

Расчет воронки. Как бы вы рассчитали воронку?

Предположим, я отслеживаю «событие», которое пользователь совершает на веб-сайте. Событиями могут быть такие вещи, как: просмотр главной страницы добавил товар в корзину проверить оплаченный заказ Теперь каждое из этих событий хранится в базе данных...
вопрос задан: 12 May 2012 19:20
0
ответов

HBase REST Filter (SingleColumnValueFilter)

Я не могу понять, как использовать фильтры в интерфейсе HBase REST (HBase 0.90.4-cdh3u3) . Документация просто дает мне определение схемы для «строки», но не показывает, как ее использовать. Итак, я ...
вопрос задан: 12 May 2012 02:41
0
ответов

Hadoop java.io.IOException: Mkdirs не удалось создать /some/path

Когда я пытаюсь запустить свое задание, я получаю следующее исключение: Исключение в потоке "main" java.io.IOException: Mkdirs не удалось создать /some/path в org.apache.hadoop.util.RunJar.ensureDirectory(...
вопрос задан: 9 May 2012 19:59
0
ответов

Простой пример запроса hive?

Я пытаюсь преобразовать простой рабочий процесс в oozie. Я пробовал просматривать примеры oozie, но они слишком -ошеломляющие. По сути, я хочу выполнить запрос и вывести результат в текст...
вопрос задан: 8 May 2012 13:24
0
ответов

Как использовать hadoop fs -getmerge для загрузки файлов.deflate?

Я попытался запустить hadoop fs -getmerge в каталоге файлов.deflate. Результатом является сжатый файл на моей локальной машине. Как проще всего загрузить весь каталог в...
вопрос задан: 8 May 2012 01:16
0
ответов

повторное использование JVM в заданиях Hadoop mapreduce

Я знаю, что мы можем установить свойство «mapred.job.reuse.jvm.num.tasks», чтобы повторно -использовать JVM. Мои вопросы::(1 )как определить количество задач, которые нужно установить здесь, -1 или какие-то другие положительные целые числа? (2 )это...
вопрос задан: 7 May 2012 15:21
0
ответов

Идея проекта машинного обучения / интеллектуального анализа данных Hadoop? [закрыто]

Я учусь в аспирантуре по информатике (интеллектуальный анализ данных и машинное обучение) и хорошо знаком с ядром Java (> 4 лет). Я прочитал кучу материалов по Hadoop и Map / Reduce. Теперь я хотел бы сделать ...
вопрос задан: 6 May 2012 10:17
0
ответов

Ошибка репликации данных в Hadoop

Я реализую кластер с одним узлом Hadoop на своем компьютере, следуя руководству Майкла Нолла, и столкнулся с ошибкой репликации данных :Вот полное сообщение об ошибке :> hadoop@laptop :~/...
вопрос задан: 4 May 2012 11:26
0
ответов

Использование HBase для хранения времени данные ряда

Мы пытаемся использовать HBase для хранения данных временных рядов. В текущей модели временные ряды хранятся в виде версий в ячейке. Это означает, что в ячейке могут храниться миллионы версий, ...
вопрос задан: 3 May 2012 05:23