Я создаю программу для анализа PDF, Файлы DOC и DOCX. Эти файлы хранятся в HDFS. Когда я начинаю свою работу MapReduce, я хочу, чтобы функция карты имела имя файла в качестве ключа и двоичное содержимое ...
Можно ли использовать DistCp для копирования только файлов, которые соответствуют определенный образец? Например. Для / foo мне нужны только файлы * .log.
Я хочу запустить пример K-средних Mahout в кластере hadoop из 5 машин. Какие jar-файлы Mahout мне нужно хранить во всех узлах, чтобы K-средства выполнялись распределенным образом ....
This may be a basic question, but I could not find an answer for it on Google.
У меня есть задание по уменьшению карты, которое создает несколько выходных файлов в своем выходном каталоге.
Мое приложение Java выполняет эту работу ...
Я новичок в hadoop и пытаюсь обработать дамп Википедии. Это XML-файл, сжатый с помощью gzip, размером 6,7 ГБ. Я читал, что hadoop поддерживает файлы, сжатые gzip, но может быть обработан картографом только в одном задании ...
У меня возникла странная проблема. Когда я запускаю свое задание Hadoop с большим набором данных (> 1 ТБ сжатых текстовых файлов), некоторые из задач сокращения завершаются сбоем с такими трассировками стека: java.io.IOException: Task: ...
Я надеюсь запустить импорт в Hive на cron, и надеялся, что просто использовать «загрузить данные локально inpath '/ tmp / data / x' в таблицу X» в таблицу будет достаточно. Будут ли последующие команды перезаписаны ...
Недавно я изучал механизм планировщика hadoop.
Использование 0.20.2 (нормальная и емкость включена)
Прочитал несколько статей, LATE \ Deadline Scheduler ... Кто-нибудь пробовал?
или есть гид? thx в любом случае
Я хочу перемещать файлы в HDFS с помощью API Java. Я не могу придумать, как это сделать. Кажется, что класс FileSystem только разрешает перемещение в локальную файловую систему и из нее ... но я хочу ...
Я меняю префикс table_name_prefix во время работы приложения rails (может показаться странным, но действительно вот чего хочу). Когда table_name_prefix изменяется для ActiveRecord, я сбрасываю таблицу ...
Я пытаюсь установить Hadoop на тестовый образ Ubuntu, отличный от Cloudera. Кажется, все шло хорошо, пока я не запустил ./bin/start-all.sh. Узел имени никогда не появляется, поэтому я даже не могу запустить hadoop fs -...
В настоящее время я оцениваю HBase как хранилище данных, но один вопрос остался без ответа: HBase хранит множество копий одного и того же объекта на многих узлах (также известный как репликация). Поскольку HBase имеет так называемый сильный ...
Когда была выпущена первая версия Hadoop? Какие-нибудь вспомогательные ссылки?
редактировать
Я должен был быть более ясным - я задаю этот вопрос, потому что статья в Википедии, лучший источник, который я мог ...
Чтобы эффективно использовать задания сокращения карты в Hadoop, мне нужны данные, которые должны храниться в формате файла последовательности hadoop. Однако в настоящее время данные представлены только в плоском формате .txt. Кто-нибудь может предложить
Я новичок в hadoop, и последние пару часов я провел, пытаясь найти эту проблему в Google , но я не нашел ничего, что могло бы помочь. Моя проблема в том, что HDFS сообщает, что файл все еще открыт, хотя процесс ...
Я пытаюсь проанализировать файлы данных с разделением табуляцией, созданные нашими службами, с помощью Amazon Elastic Map Reduce с помощью программы Pig. Дела идут хорошо, за исключением того, что все наши файлы данных содержат заголовок ...
Я создал кластер hadoop с одним узлом ubuntu в EC2. Тестирование простой загрузки файла в hdfs работает на машине EC2, но не работает на машине за пределами EC2. Я могу просмотреть ...
При настройке моего узла имени hadoop в первый раз я знаю, что нужно запустить bin / hadoop namenode -format, но запуск этого второй раз, после загрузки данных в HDFS, уничтожит все и ...
Недавно я настроил кластер hadoop с двумя машинами (на ubuntu). Пока работает нормально. Но когда я пытаюсь настроить hbase в указанном выше кластере hadoop, появляется ошибка.
Вот что я сделал, у меня есть ...
У меня есть набор записей, которые я загружаю из файла, и первое, что мне нужно сделать, это получить макс и мин столбца. В SQL я бы сделал это с помощью такого подзапроса: select c.state, c ....
Я знаю, что могу выделить кластер EC2 с установленным Hadoop (если я не ошибаюсь в этом). Как насчет Hbase? Могу ли я иметь готовые Hadoop и Hbase, готовые к работе? Или мне нужно запачкать руки ....
Как создаются эти файлы последовательностей? Я видел здесь ссылку на файл последовательности, http://wiki.apache.org/hadoop/SequenceFile. Они написаны с использованием сериализатора Java по умолчанию? и как мне прочитать ...
Я пытаюсь поиграть с набором данных Google ngrams с помощью Amazon Elastic Map Reduce. На http://aws.amazon.com/datasets/8172056142375670 есть общедоступный набор данных, и я хочу использовать Hadoop ...
У меня есть синтаксический анализатор, возвращающий некоторое строковое значение, которое я хотел бы использовать в качестве параметра для инициализации экземпляра моего класса. У меня есть метод, запрашивающий два NSString и значение с плавающей запятой
Привет, SO! Я хотел бы получить несколько идей / комментариев по следующим вопросам от вас, уважаемая и достопочтенная группа. У меня есть 100 миллионов записей, которые мне нужно обработать. У меня есть 5 узлов (в кластере камней), которые нужно сделать
Я столкнулся с этим при описании конфигурации Zookeeper для HBase, и я не знаком с этим термином. Имеет ли «N» какое-либо отношение к количеству узлов в моем кластере HBase? Или ...
Мы хотели бы внедрить Hadoop в нашу систему, чтобы улучшить ее производительность. Процесс работает так:
Hadoop будет собирать данные из базы данных MySQL, а затем обрабатывать их.
Затем результат будет экспортирован ...