0
ответов

Как получить имя файла / содержимое файла в качестве ввода ключ / значение для MAP при выполнении задания Hadoop MapReduce?

Я создаю программу для анализа PDF, Файлы DOC и DOCX. Эти файлы хранятся в HDFS. Когда я начинаю свою работу MapReduce, я хочу, чтобы функция карты имела имя файла в качестве ключа и двоичное содержимое ...
вопрос задан: 19 April 2011 12:13
0
ответов

Hadoop DistCp с использованием подстановочных знаков?

Можно ли использовать DistCp для копирования только файлов, которые соответствуют определенный образец? Например. Для / foo мне нужны только файлы * .log.
вопрос задан: 18 April 2011 21:21
0
ответов

Развертывание Mahout в кластере hadoop

Я хочу запустить пример K-средних Mahout в кластере hadoop из 5 машин. Какие jar-файлы Mahout мне нужно хранить во всех узлах, чтобы K-средства выполнялись распределенным образом ....
вопрос задан: 15 April 2011 12:44
0
ответов

Programmatically reading the output of Hadoop Mapreduce Program

This may be a basic question, but I could not find an answer for it on Google. У меня есть задание по уменьшению карты, которое создает несколько выходных файлов в своем выходном каталоге. Мое приложение Java выполняет эту работу ...
вопрос задан: 12 April 2011 14:15
0
ответов

Файлы, сжатые с помощью gzip Hadoop

Я новичок в hadoop и пытаюсь обработать дамп Википедии. Это XML-файл, сжатый с помощью gzip, размером 6,7 ГБ. Я читал, что hadoop поддерживает файлы, сжатые gzip, но может быть обработан картографом только в одном задании ...
вопрос задан: 12 April 2011 04:00
0
ответов

Любой хороший интерфейсный инструмент Opensource Analytics? [закрыто]

Есть ли какой-нибудь хороший веб-инструмент аналитики с открытым исходным кодом, который может обращаться к HIVE / HDFS за данными?
вопрос задан: 11 April 2011 22:27
0
ответов

Hadoop: ошибка промежуточного слияния

У меня возникла странная проблема. Когда я запускаю свое задание Hadoop с большим набором данных (> 1 ТБ сжатых текстовых файлов), некоторые из задач сокращения завершаются сбоем с такими трассировками стека: java.io.IOException: Task: ...
вопрос задан: 8 April 2011 18:14
0
ответов

В Hive, «Загрузить локальные данные в пути» перезаписывает существующие данные или добавляет их?

Я надеюсь запустить импорт в Hive на cron, и надеялся, что просто использовать «загрузить данные локально inpath '/ tmp / data / x' в таблицу X» в таблицу будет достаточно. Будут ли последующие команды перезаписаны ...
вопрос задан: 4 April 2011 23:09
0
ответов

Как мне написать свой собственный планировщик Hadoop ?

Недавно я изучал механизм планировщика hadoop. Использование 0.20.2 (нормальная и емкость включена) Прочитал несколько статей, LATE \ Deadline Scheduler ... Кто-нибудь пробовал? или есть гид? thx в любом случае
вопрос задан: 4 April 2011 13:28
0
ответов

Перемещение файлов в Hadoop с помощью Java API?

Я хочу перемещать файлы в HDFS с помощью API Java. Я не могу придумать, как это сделать. Кажется, что класс FileSystem только разрешает перемещение в локальную файловую систему и из нее ... но я хочу ...
вопрос задан: 31 March 2011 23:58
0
ответов

Как изменить имя таблицы ActiveRecord во время выполнения

Я меняю префикс table_name_prefix во время работы приложения rails (может показаться странным, но действительно вот чего хочу). Когда table_name_prefix изменяется для ActiveRecord, я сбрасываю таблицу ...
вопрос задан: 31 March 2011 00:00
0
ответов

Как я могу устранить эту ошибку установки файловой системы Hadoop?

Я пытаюсь установить Hadoop на тестовый образ Ubuntu, отличный от Cloudera. Кажется, все шло хорошо, пока я не запустил ./bin/start-all.sh. Узел имени никогда не появляется, поэтому я даже не могу запустить hadoop fs -...
вопрос задан: 24 March 2011 18:47
0
ответов

HBase: Как работает репликация?

В настоящее время я оцениваю HBase как хранилище данных, но один вопрос остался без ответа: HBase хранит множество копий одного и того же объекта на многих узлах (также известный как репликация). Поскольку HBase имеет так называемый сильный ...
вопрос задан: 24 March 2011 10:14
0
ответов

Все три конструктора org.apache.hadoop.mapreduce. Job устарели, как лучше всего создать класс Job?

Все три конструктора org.apache.hadoop.mapreduce.Job устарели, есть ли способ создать класс Job нерекомендуемым способом? Спасибо.
вопрос задан: 23 March 2011 03:47
0
ответов

Когда была выпущена первая версия Hadoop? [закрыто]

Когда была выпущена первая версия Hadoop? Какие-нибудь вспомогательные ссылки? редактировать Я должен был быть более ясным - я задаю этот вопрос, потому что статья в Википедии, лучший источник, который я мог ...
вопрос задан: 22 March 2011 14:20
0
ответов

Создать временную таблицу в Hive?

Поддерживает ли Hive временные таблицы? Я не могу найти его в документации по apache.
вопрос задан: 21 March 2011 23:59
0
ответов

Как преобразовать файл .txt в формат файла последовательности Hadoop

Чтобы эффективно использовать задания сокращения карты в Hadoop, мне нужны данные, которые должны храниться в формате файла последовательности hadoop. Однако в настоящее время данные представлены только в плоском формате .txt. Кто-нибудь может предложить
вопрос задан: 21 March 2011 12:24
0
ответов

HDFS сообщает, что файл все еще открыт, но процесс записи в него был прерван

Я новичок в hadoop, и последние пару часов я провел, пытаясь найти эту проблему в Google , но я не нашел ничего, что могло бы помочь. Моя проблема в том, что HDFS сообщает, что файл все еще открыт, хотя процесс ...
вопрос задан: 18 March 2011 02:22
0
ответов

Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?

Я пытаюсь проанализировать файлы данных с разделением табуляцией, созданные нашими службами, с помощью Amazon Elastic Map Reduce с помощью программы Pig. Дела идут хорошо, за исключением того, что все наши файлы данных содержат заголовок ...
вопрос задан: 17 March 2011 23:02
0
ответов

Ошибка HDFS: можно было реплицировать только на 0 узлов вместо 1

Я создал кластер hadoop с одним узлом ubuntu в EC2. Тестирование простой загрузки файла в hdfs работает на машине EC2, но не работает на машине за пределами EC2. Я могу просмотреть ...
вопрос задан: 14 March 2011 00:11
0
ответов

Как я могу определить, был ли уже отформатирован узел имени hadoop?

При настройке моего узла имени hadoop в первый раз я знаю, что нужно запустить bin / hadoop namenode -format, но запуск этого второй раз, после загрузки данных в HDFS, уничтожит все и ...
вопрос задан: 11 March 2011 20:04
0
ответов

ОШИБКА: org .apache.hadoop.hbase.MasterNotRunningException: null + hbase + hadoop

Недавно я настроил кластер hadoop с двумя машинами (на ubuntu). Пока работает нормально. Но когда я пытаюсь настроить hbase в указанном выше кластере hadoop, появляется ошибка. Вот что я сделал, у меня есть ...
вопрос задан: 11 March 2011 06:31
0
ответов

Макс. / Мин. Для всех наборов записей в PIG

У меня есть набор записей, которые я загружаю из файла, и первое, что мне нужно сделать, это получить макс и мин столбца. В SQL я бы сделал это с помощью такого подзапроса: select c.state, c ....
вопрос задан: 7 March 2011 18:17
0
ответов

Установка Hbase / Hadoop на кластер EC2

Я знаю, что могу выделить кластер EC2 с установленным Hadoop (если я не ошибаюсь в этом). Как насчет Hbase? Могу ли я иметь готовые Hadoop и Hbase, готовые к работе? Или мне нужно запачкать руки ....
вопрос задан: 25 February 2011 03:16
0
ответов

Файлы последовательностей в Hadoop

Как создаются эти файлы последовательностей? Я видел здесь ссылку на файл последовательности, http://wiki.apache.org/hadoop/SequenceFile. Они написаны с использованием сериализатора Java по умолчанию? и как мне прочитать ...
вопрос задан: 23 February 2011 19:38
0
ответов

Как использовать потоковую передачу Hadoop с файлами последовательностей, сжатыми LZO?

Я пытаюсь поиграть с набором данных Google ngrams с помощью Amazon Elastic Map Reduce. На http://aws.amazon.com/datasets/8172056142375670 есть общедоступный набор данных, и я хочу использовать Hadoop ...
вопрос задан: 20 February 2011 23:46
0
ответов

Строка для смещения в объекте c

У меня есть синтаксический анализатор, возвращающий некоторое строковое значение, которое я хотел бы использовать в качестве параметра для инициализации экземпляра моего класса. У меня есть метод, запрашивающий два NSString и значение с плавающей запятой
вопрос задан: 3 February 2011 00:33
0
ответов

Hadoop (+ HBase / HDFS) против Mysql (или Postgres) - множество независимых структурированных данных для обработки и спросил

Привет, SO! Я хотел бы получить несколько идей / комментариев по следующим вопросам от вас, уважаемая и достопочтенная группа. У меня есть 100 миллионов записей, которые мне нужно обработать. У меня есть 5 узлов (в кластере камней), которые нужно сделать
вопрос задан: 3 February 2011 00:27
0
ответов

что означает кворум 2n + 1?

Я столкнулся с этим при описании конфигурации Zookeeper для HBase, и я не знаком с этим термином. Имеет ли «N» какое-либо отношение к количеству узлов в моем кластере HBase? Или ...
вопрос задан: 28 January 2011 20:45
0
ответов

Интеграция Hadoop и MySQL

Мы хотели бы внедрить Hadoop в нашу систему, чтобы улучшить ее производительность. Процесс работает так: Hadoop будет собирать данные из базы данных MySQL, а затем обрабатывать их. Затем результат будет экспортирован ...
вопрос задан: 26 January 2011 02:43