hadoop - список вопросов по программированию hadoop

0

ответов

Как получить имя файла / содержимое файла в качестве ввода ключ / значение для MAP при выполнении задания Hadoop MapReduce?

Я создаю программу для анализа PDF, Файлы DOC и DOCX. Эти файлы хранятся в HDFS. Когда я начинаю свою работу MapReduce, я хочу, чтобы функция карты имела имя файла в качестве ключа и двоичное содержимое ...

вопрос задан: 19 April 2011 12:13

0

ответов

Hadoop DistCp с использованием подстановочных знаков?

Можно ли использовать DistCp для копирования только файлов, которые соответствуют определенный образец? Например. Для / foo мне нужны только файлы * .log.

hadoop

вопрос задан: 18 April 2011 21:21

0

ответов

Развертывание Mahout в кластере hadoop

Я хочу запустить пример K-средних Mahout в кластере hadoop из 5 машин. Какие jar-файлы Mahout мне нужно хранить во всех узлах, чтобы K-средства выполнялись распределенным образом ....

hadoop cluster-analysis k-means mahout

вопрос задан: 15 April 2011 12:44

0

ответов

Programmatically reading the output of Hadoop Mapreduce Program

This may be a basic question, but I could not find an answer for it on Google. У меня есть задание по уменьшению карты, которое создает несколько выходных файлов в своем выходном каталоге. Мое приложение Java выполняет эту работу ...

hadoop mapreduce hdfs

вопрос задан: 12 April 2011 14:15

0

ответов

Файлы, сжатые с помощью gzip Hadoop

Я новичок в hadoop и пытаюсь обработать дамп Википедии. Это XML-файл, сжатый с помощью gzip, размером 6,7 ГБ. Я читал, что hadoop поддерживает файлы, сжатые gzip, но может быть обработан картографом только в одном задании ...

java algorithm data-structures hadoop mapreduce

вопрос задан: 12 April 2011 04:00

0

ответов

Любой хороший интерфейсный инструмент Opensource Analytics? [закрыто]

Есть ли какой-нибудь хороший веб-инструмент аналитики с открытым исходным кодом, который может обращаться к HIVE / HDFS за данными?

hadoop hive web-analytics-tools

вопрос задан: 11 April 2011 22:27

0

ответов

Hadoop: ошибка промежуточного слияния

У меня возникла странная проблема. Когда я запускаю свое задание Hadoop с большим набором данных (> 1 ТБ сжатых текстовых файлов), некоторые из задач сокращения завершаются сбоем с такими трассировками стека: java.io.IOException: Task: ...

hadoop mapreduce cloudera

вопрос задан: 8 April 2011 18:14

0

ответов

В Hive, «Загрузить локальные данные в пути» перезаписывает существующие данные или добавляет их?

Я надеюсь запустить импорт в Hive на cron, и надеялся, что просто использовать «загрузить данные локально inpath '/ tmp / data / x' в таблицу X» в таблицу будет достаточно. Будут ли последующие команды перезаписаны ...

hadoop hbase hdfs hive

вопрос задан: 4 April 2011 23:09

0

ответов

Как мне написать свой собственный планировщик Hadoop ?

Недавно я изучал механизм планировщика hadoop. Использование 0.20.2 (нормальная и емкость включена) Прочитал несколько статей, LATE \ Deadline Scheduler ... Кто-нибудь пробовал? или есть гид? thx в любом случае

hadoop mapreduce scheduler

вопрос задан: 4 April 2011 13:28

0

ответов

Перемещение файлов в Hadoop с помощью Java API?

Я хочу перемещать файлы в HDFS с помощью API Java. Я не могу придумать, как это сделать. Кажется, что класс FileSystem только разрешает перемещение в локальную файловую систему и из нее ... но я хочу ...

java hadoop hdfs

вопрос задан: 31 March 2011 23:58

0

ответов

Как изменить имя таблицы ActiveRecord во время выполнения

Я меняю префикс table_name_prefix во время работы приложения rails (может показаться странным, но действительно вот чего хочу). Когда table_name_prefix изменяется для ActiveRecord, я сбрасываю таблицу ...

hadoop hdfs

вопрос задан: 31 March 2011 00:00

0

ответов

Как я могу устранить эту ошибку установки файловой системы Hadoop?

Я пытаюсь установить Hadoop на тестовый образ Ubuntu, отличный от Cloudera. Кажется, все шло хорошо, пока я не запустил ./bin/start-all.sh. Узел имени никогда не появляется, поэтому я даже не могу запустить hadoop fs -...

hadoop hbase hdfs

вопрос задан: 24 March 2011 18:47

0

ответов

HBase: Как работает репликация?

В настоящее время я оцениваю HBase как хранилище данных, но один вопрос остался без ответа: HBase хранит множество копий одного и того же объекта на многих узлах (также известный как репликация). Поскольку HBase имеет так называемый сильный ...

hadoop hbase

вопрос задан: 24 March 2011 10:14

0

ответов

Все три конструктора org.apache.hadoop.mapreduce. Job устарели, как лучше всего создать класс Job?

Все три конструктора org.apache.hadoop.mapreduce.Job устарели, есть ли способ создать класс Job нерекомендуемым способом? Спасибо.

hadoop mapreduce deprecated

вопрос задан: 23 March 2011 03:47

0

ответов

Когда была выпущена первая версия Hadoop? [закрыто]

Когда была выпущена первая версия Hadoop? Какие-нибудь вспомогательные ссылки? редактировать Я должен был быть более ясным - я задаю этот вопрос, потому что статья в Википедии, лучший источник, который я мог ...

hadoop

вопрос задан: 22 March 2011 14:20

0

ответов

Создать временную таблицу в Hive?

Поддерживает ли Hive временные таблицы? Я не могу найти его в документации по apache.

hadoop hive

вопрос задан: 21 March 2011 23:59

0

ответов

Как преобразовать файл .txt в формат файла последовательности Hadoop

Чтобы эффективно использовать задания сокращения карты в Hadoop, мне нужны данные, которые должны храниться в формате файла последовательности hadoop. Однако в настоящее время данные представлены только в плоском формате .txt. Кто-нибудь может предложить

java file hadoop type-conversion hive

вопрос задан: 21 March 2011 12:24

0

ответов

HDFS сообщает, что файл все еще открыт, но процесс записи в него был прерван

Я новичок в hadoop, и последние пару часов я провел, пытаясь найти эту проблему в Google , но я не нашел ничего, что могло бы помочь. Моя проблема в том, что HDFS сообщает, что файл все еще открыт, хотя процесс ...

hadoop hdfs

вопрос задан: 18 March 2011 02:22

0

ответов

Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?

Я пытаюсь проанализировать файлы данных с разделением табуляцией, созданные нашими службами, с помощью Amazon Elastic Map Reduce с помощью программы Pig. Дела идут хорошо, за исключением того, что все наши файлы данных содержат заголовок ...

hadoop apache-pig

вопрос задан: 17 March 2011 23:02

0

ответов

Ошибка HDFS: можно было реплицировать только на 0 узлов вместо 1

Я создал кластер hadoop с одним узлом ubuntu в EC2. Тестирование простой загрузки файла в hdfs работает на машине EC2, но не работает на машине за пределами EC2. Я могу просмотреть ...

amazon-ec2 hadoop

вопрос задан: 14 March 2011 00:11

0

ответов

Как я могу определить, был ли уже отформатирован узел имени hadoop?

При настройке моего узла имени hadoop в первый раз я знаю, что нужно запустить bin / hadoop namenode -format, но запуск этого второй раз, после загрузки данных в HDFS, уничтожит все и ...

hadoop hdfs

вопрос задан: 11 March 2011 20:04

0

ответов

ОШИБКА: org .apache.hadoop.hbase.MasterNotRunningException: null + hbase + hadoop

Недавно я настроил кластер hadoop с двумя машинами (на ubuntu). Пока работает нормально. Но когда я пытаюсь настроить hbase в указанном выше кластере hadoop, появляется ошибка. Вот что я сделал, у меня есть ...

hadoop hbase

вопрос задан: 11 March 2011 06:31

0

ответов

Макс. / Мин. Для всех наборов записей в PIG

У меня есть набор записей, которые я загружаю из файла, и первое, что мне нужно сделать, это получить макс и мин столбца. В SQL я бы сделал это с помощью такого подзапроса: select c.state, c ....

hadoop apache-pig

вопрос задан: 7 March 2011 18:17

0

ответов

Установка Hbase / Hadoop на кластер EC2

Я знаю, что могу выделить кластер EC2 с установленным Hadoop (если я не ошибаюсь в этом). Как насчет Hbase? Могу ли я иметь готовые Hadoop и Hbase, готовые к работе? Или мне нужно запачкать руки ....

amazon-ec2 hadoop hbase

вопрос задан: 25 February 2011 03:16

0

ответов

Файлы последовательностей в Hadoop

Как создаются эти файлы последовательностей? Я видел здесь ссылку на файл последовательности, http://wiki.apache.org/hadoop/SequenceFile. Они написаны с использованием сериализатора Java по умолчанию? и как мне прочитать ...

java apache hadoop

вопрос задан: 23 February 2011 19:38

0

ответов

Как использовать потоковую передачу Hadoop с файлами последовательностей, сжатыми LZO?

Я пытаюсь поиграть с набором данных Google ngrams с помощью Amazon Elastic Map Reduce. На http://aws.amazon.com/datasets/8172056142375670 есть общедоступный набор данных, и я хочу использовать Hadoop ...

hadoop mapreduce amazon-emr

вопрос задан: 20 February 2011 23:46

0

ответов

Строка для смещения в объекте c

У меня есть синтаксический анализатор, возвращающий некоторое строковое значение, которое я хотел бы использовать в качестве параметра для инициализации экземпляра моего класса. У меня есть метод, запрашивающий два NSString и значение с плавающей запятой

configuration compression hadoop hive

вопрос задан: 3 February 2011 00:33

0

ответов

Hadoop (+ HBase / HDFS) против Mysql (или Postgres) - множество независимых структурированных данных для обработки и спросил

Привет, SO! Я хотел бы получить несколько идей / комментариев по следующим вопросам от вас, уважаемая и достопочтенная группа. У меня есть 100 миллионов записей, которые мне нужно обработать. У меня есть 5 узлов (в кластере камней), которые нужно сделать

mysql database-design postgresql hadoop distributed

вопрос задан: 3 February 2011 00:27

0

ответов

что означает кворум 2n + 1?

Я столкнулся с этим при описании конфигурации Zookeeper для HBase, и я не знаком с этим термином. Имеет ли «N» какое-либо отношение к количеству узлов в моем кластере HBase? Или ...

hadoop hbase apache-zookeeper

вопрос задан: 28 January 2011 20:45

0

ответов

Интеграция Hadoop и MySQL

Мы хотели бы внедрить Hadoop в нашу систему, чтобы улучшить ее производительность. Процесс работает так: Hadoop будет собирать данные из базы данных MySQL, а затем обрабатывать их. Затем результат будет экспортирован ...

mysql integration hadoop

вопрос задан: 26 January 2011 02:43