0
ответов

Выпуск разрешений Hadoop DFS при работе с работой

Я получаю эту ошибку разрешения, и не уверен, почему Hadoop пытается написать на эту конкретную папку: JAM / USR / Lib / Hadoop / Hadoop - * - Примеры .jar pi 2 100000 Количество отображений = 2 ...
вопрос задан: 8 September 2011 19:32
0
ответов

Доступ к HBase работает в VM с клиентом на хост-системе

Я пытаюсь написать некоторые данные в HBASE с помощью клиентской программы HBASE @ Hadoop Runs в предварительном обороте VM от Cloudera @ Ubuntu. Клиент работает на системе, размещающей виртуальную машину и бегущий клиент напрямую ...
вопрос задан: 7 September 2011 16:38
0
ответов

Как начать обучение Hadoop [Закрыто]

Я веб-разработчик. У меня есть опыт в веб-технологиях, таких как JavaScript, jQuery, PHP, HTML. Я знаю основные концепции C. Недавно я предпринимал интерес к участию в Mapreatuce и ...
вопрос задан: 6 September 2011 00:13
0
ответов

Отказ потоковой передачи задания Hadoop: Задача выхода с ненулевым статусом 137

Я бросал голову на это Один на несколько дней, и надеюсь, что у кого-то будет иметь некоторое понимание. Я написал потоковую карту, уменьшающую работу в Perl, которая склонна к тому, чтобы иметь один или два ...
вопрос задан: 5 September 2011 19:40
0
ответов

Git предупреждает, если последовательность появляется в источнике (или diff)

Я хотел бы, чтобы при постановке † в git-репо ‡, если изменения, которые я собираюсь зафиксировать, содержат определенную последовательность (скажем, @ todo или @ hack). Может ли кто-то показать мне, как этого добиться? † или предупредил. ‡ ...
вопрос задан: 3 September 2011 04:52
0
ответов

Есть ли хорошее онлайн-руководство для разработки Hadoop на машине Windows 7? [закрыто]

Я следовал потрясающему Yahoo! Учебное пособие Hadoop, которое отлично сработало для получения настроек виртуальной машины (модуль 3 учебника). Но теперь я ошеломлен раздел HDFS ...
вопрос задан: 2 September 2011 01:32
0
ответов

Как заставить свинью работать с файлами LZO?

Итак, я видел пару учебников для этого онлайн, но каждый, кажется, скажет что-то другое. Кроме того, каждый из них, похоже, не указывает, пытаетесь ли вы получить вещи для работы на пульте ...
вопрос задан: 1 September 2011 23:07
0
ответов

Крупномасштабная обработка данных Hbase vs Cassandra [закрыто]

Я почти приземлился на Кассандре после моего исследования решений для крупномасштабного хранения данных. Но в целом говорят, что Hbase - лучшее решение для крупномасштабной обработки и анализа данных. Хотя оба ...
вопрос задан: 1 September 2011 15:28
0
ответов

Натч на ЭМИ проблемы чтения из S3

Привет я пытаюсь запустить Apache Nutch 1.2 на ЭМИ Amazon. Для этого я специфицирую входной каталог из S3. Получаю следующую ошибку: Fetcher: java.lang.IllegalArgumentException: Этот файл ...
вопрос задан: 30 August 2011 17:42
0
ответов

Проблема с разрешениями Apache Pig

Я пытаюсь запустить Apache Pig в моем кластере Hadoop, но у меня возникает проблема с разрешениями. Сам Pig запускается и подключается к кластеру просто отлично - из Pig ...
вопрос задан: 25 August 2011 16:38
0
ответов

Пользовательский формат ввода MapReduce - не удается найти конструктор

Я пишу собственный формат ввода для Hadoop 0.20.2 и обнаруживаю исключение NoSuchMethodException. Я не могу избавиться из. Я начал с: открытый класс ConnectionInputFormat extends FileInputFormat
вопрос задан: 22 August 2011 22:00
0
ответов

Hadoop: сжимать файл в HDFS?

Недавно я настроил сжатие LZO в Hadoop. Как проще всего сжать файл в HDFS? Я хочу сжать файл, а затем удалить оригинал. Должен ли я создать задание MR с ...
вопрос задан: 22 August 2011 20:16
0
ответов

Hadoop в OSX «Невозможно загрузить информацию о сфере из SCDynamicStore»

Я получаю эту ошибку при запуске Hadoop в OSX 10.7: Невозможно загрузить информацию о сфере из SCDynamicStore. каталог /...
вопрос задан: 20 August 2011 21:13
0
ответов

Видеоурок по Hadoop [закрыто]

есть ли у кого-нибудь ссылки на видеоурок по запуску hadoop
вопрос задан: 13 August 2011 23:08
0
ответов

Кассандра InvalidRequestException(почему:[MyKeyspace][MyColumnFamily][6675...6c74] = [6c86...e65720] неудачная валидация (строка не валидировалась.))

Я использую Кассандру с Хадупом для ввода и вывода. Во время выполнения задания на уменьшение вывода я получил ошибку: 2011-08-10 03:54:04,326 WARN org.apache.hadoop.mapred.Child: Ошибка бегущего ребенка java.io....
вопрос задан: 10 August 2011 18:31
0
ответов

Как читать сжатые дампы bz2 (bzip2) Википедии в поток xml-программы чтения для карты hadoop reduce

Я работаю над использованием Hadoop Map Reduce для исследования дампов данных википедии (сжатые в формате bz2). Поскольку эти дампы очень большие (5 T), я не могу распаковать XML-данные в HDFS и просто ...
вопрос задан: 6 August 2011 11:27
0
ответов

Как печатать на консоли во время выполнения задания MapReduce в hadoop

Я хочу распечатать каждый шаг моей «карты» после ее выполнения на консоли. Что-то вроде System.out.println («Шаг первый завершен»); System.out.println («Шаг второй завершен»); и так далее. Есть ли ...
вопрос задан: 4 August 2011 13:53
0
ответов

Как hive / hadoop гарантирует, что каждый модуль отображения работает с локальными для него данными?

2 основных вопроса, которые меня беспокоят: как я могу быть уверен, что каждый из 32 файлов, которые куст использует для хранения моих таблиц, находится на его уникальная машина? Если это произойдет, как я могу быть уверен, что если улей создает 32 ...
вопрос задан: 4 August 2011 12:56
0
ответов

В чем разница между СУБД и Hive? [закрыто]

В СУБД, такой как MySQL, есть база данных, есть ли база данных также в Улье? Как я читал в руководстве, в улье есть только таблица, я немного запутался в этом .. и в чем разница между концепцией СУБД и Улья? ...
вопрос задан: 2 August 2011 21:47
0
ответов

Проблема с -libjars в hadoop

Я пытаюсь запустить задание MapReduce в Hadoop, но вижу ошибку и я не уверен, что происходит не так. Мне нужно передать jar-файлы библиотеки, которые требуются моему картографу. Я вызываю следующее…
вопрос задан: 31 July 2011 14:43
0
ответов

Как HBase гарантирует атомарность на уровне строк?

Учитывая тот факт, что HBase хранит каждое семейство столбцов в отдельном HFile, и тот факт, что строка может охватывать несколько семейств столбцов. Как HBase гарантирует, что операция помещения / удаления в строке, которая ...
вопрос задан: 31 July 2011 09:20
0
ответов

Hive не работает при установке

Я получаю следующую ошибку в Hive при выполнении любой команды. улей> показать таблицы; FAILED: ошибка в метаданных: javax.jdo.JDOFatalInternalException: обнаружено непредвиденное исключение. NestedThrowables: java ....
вопрос задан: 28 July 2011 02:18
0
ответов

запрос / агрегирование миллионов записей в реальном времени - hadoop? hbase? cassandra?

У меня есть решение, которое можно распараллелить, но у меня (пока) нет опыта работы с hadoop / nosql, и я не уверен, какое решение лучше всего подходит для моих нужд. Теоретически, если бы у меня было неограниченное количество процессоров, мои результа
вопрос задан: 26 July 2011 17:12
0
ответов

HBase & Mahout - Использование HBase в качестве хранилища данных / источника для Mahout - Классификация

Я работаю над большим проектом классификации текста, и у нас есть наши текстовые данные (простые сообщения ) хранится в HBase. У нас есть две проблемы. Во-первых, мы хотели бы использовать HBase в качестве источника для Mahout ...
вопрос задан: 25 July 2011 12:52
0
ответов

Как я могу включить пакет Python в задание потоковой передачи Hadoop?

Я пытаюсь включить пакет Python (NLTK) в задание потоковой передачи Hadoop, но не знаю, как это сделать, не включая каждый файл вручную через интерфейс командной строки аргумент, "-файл". Изменить: одним из решений было бы ...
вопрос задан: 25 July 2011 03:33
0
ответов

Плохая производительность для дедупликации 2 миллионов записей с использованием mapreduce в Appengine

У меня около 2 миллионов записей, каждая из которых имеет около 4 строковых полей, которые необходимо проверить на наличие дубликатов. Чтобы быть более конкретным, у меня есть имя, телефон, адрес и имя отца в качестве полей, и я должен проверить ...
вопрос задан: 21 July 2011 02:55
0
ответов

На практике, сколько машин вам нужно, чтобы Hadoop / MapReduce / Mahout ускорили вычисления с высокой степенью распараллеливания?

Мне нужно выполнить тяжелые вычисления с машинным обучением. В локальной сети у меня простаивает небольшое количество машин. Сколько машин мне понадобится для распределения моих вычислений с помощью hadoop / ...
вопрос задан: 13 July 2011 17:00
0
ответов

Управление кластером Ubuntu

Я пытаюсь найти решение для управления набором Linux-машин (ОС: Ubuntu, ~ 40 узлов . то же оборудование). Предполагается, что эти машины представляют собой образы друг друга, программное обеспечение, установленное на них, должно ...
вопрос задан: 11 July 2011 15:36
0
ответов

Что подразумевается под разреженными данными / хранилищем данных / базой данных?

В последнее время читали о Hadoop и HBase и наткнулись на этот термин - HBase - это распределенный, разреженный , колоночное хранилище ... Что они подразумевают под редким? Есть ли ...
вопрос задан: 6 July 2011 16:48
0
ответов

왜 hadoop이 큰 텍스트 파일을 분할 한 다음 gzip을 사용하여 분할을 압축 할 수 없습니까?

최근에 hadoop과 HDFS를 조사했습니다. 파일을 HDFS로로드하면 일반적으로 파일을 64MB 청크로 분할하고 이러한 청크를 클러스터에 배포합니다. 할 수없는 것을 제외하고는 ...
вопрос задан: 28 June 2011 20:20