Мне нужна помощь с этим скриптом свиньи. Я получаю только одну пластинку. Я выбираю 2 столбца и делаю подсчет (отдельный) в другом, а также использую предложение where like, чтобы найти конкретный ...
Пока выполняется задание Hadoop или в процессе, если я что-то напишу в HDFS или H база тогда будет это
данные будут видны всем узлам кластера 1.) немедленно? 2.) Если не сразу, то после того, как ...
Я знаю, как использовать sqoop через командную строку.
Но не знаю, как вызвать команду sqoop с помощью Java-программ.
Может ли кто-нибудь дать представление о коде?
В новом API (apache.hadoop.mapreduce.KeyValueTextInputFormat), как указать разделитель (разделитель), отличный от табуляции (по умолчанию), для разделения ключа и Ценность. Пример ввода: одна, первая строка
two, ...
У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором запущен единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального hadoop, выполняется ...
У меня есть файл, содержащий String, затем пробел и затем число в каждой строке. Пример: Строка1: Слово 2
Строка2 : Слово1 8
Строка3: Word2 1 Мне нужно отсортировать числа в порядке убывания, а затем поместить ...
Как переопределить стандартные свойства log4j.properties в hadoop? Если я устанавливаю hadoop.root.logger=WARN,console, он не печатает логи на консоли, тогда как я хочу, чтобы он не печатал ...
Во время выполнения задания hadoop на псевдоузле задача завершается ошибкой и завершается.
Ошибка: попытка задачи_ не удалось сообщить о состоянии в течение 601 секунды. Но та же программа выполняется через Eclipse (локальное задание). Задача: ...
Я новичок в Hadoop. Я читал, что HDFS - это в основном «писать один раз, читать каждый раз». У меня есть случай использования, когда мне, возможно, придется внести изменения в файлы, хранящиеся в HDFS. У меня ...
Моя работа не требует сортировки, только агрегирование информации по ключу. Поэтому я думаю, можно ли отключить сортировку всей информации в порядке увеличения производительности. Примечание: я не могу установить редукторы ...
HDFS и GridFS - две отличные технологии для распределенного сохранения файлов, но в чем их отличия? Какие типы проблем лучше подходят для каждой из них?
как объявить переменную в PIG? Предположим, я хочу, чтобы целое число имело значения как 10, как я могу объявить его в скрипте? И как схема может быть повторно использована?
Я исследую проблему производительности в Jetty 6.1.26. Jetty использует Transfer-Encoding: chunked, и в зависимости от размера используемого буфера это может быть очень медленным при локальной передаче. I'...
Кто-нибудь пробовал это? Google показывает полную пустоту, и до сих пор это был трудный процесс (я новичок в создании, муравей и т. Д.). После скачивания множества зависимостей, некоторые откровенно неразумные ...
Я установил hadoop 1.0.0 и попробовал подсчет слов пример (одноузловой кластер). На выполнение потребовалось 2 м 48 секунд. Затем я попробовал стандартную программу подсчета слов linux, которая работала за 10 миллисекунд на ...
У меня есть программа на C++, которую я пытаюсь запустить как потоковое задание на hadoop (в ней только mappers, никаких reducers). В то время как простая программа на C++ работает корректно. Другая программа на C++, которая связана с большим количеством
Какие форматы файлов можно читать с помощью PIG? Как их хранить в разных форматах? Скажем, у нас есть файл CSV, и я хочу сохранить его как файл MXL, как это можно сделать? Всякий раз, когда мы используем команду STORE ...
Я использую MiniDFSCluster для проведения junit тестов.
Теперь я просто запускаю и закрываю кластер, junit работает зелено. Но я получаю это исключение: javax.management.InstanceAlreadyExistsException: MXBean уже ...
У меня есть вопрос, связанный с проектированием схемы HBase. Проблема довольно проста - я храню «уведомления» в hbase, каждое из которых имеет статус («новые», «просмотренные» и «прочитанные»). Вот API, которые мне нужны ...
Я пытаюсь запустить тесты Terasort и получаю следующее исключение: java.lang.RuntimeException: ошибка при настройке объекта в org.apache.hadoop.util.ReflectionUtils .setJobConf (...
Я пробовал множество способов установить уровень ведения журнала в Hadoop на WARN, но каждый раз терпел неудачу.
Во-первых, я попытался настроить файл log4j.properties, просто заменив «INFO» на «WARN» ...
Я работаю над веб-приложением для социальных сетей, которое использует веб-сервер Apache и сервер MYSQL для базы данных с фреймворками codeigniter MVC. Я не знаю, как интегрировать Hadoop в эту ...
Мне нужны выходные файлы в формате 2012117-part-r-00000. В основном я хочу, чтобы к выходному файлу была добавлена дата, чтобы я мог расположить файлы в соответствии с датой. Я посмотрел ...
У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом.
Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...
Привет, ребята! После знакомства с Scala Actors и Clojure Futures я почувствовал, что оба языка отлично поддерживают многоядерную обработку данных. Однако я все еще не смог ...
Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int,
v4 int, v5 bigint, v6 int) ...
Я разрабатываю усовершенствование инфраструктуры Spark (http: // www .spark-project.org /). Spark - это проект Калифорнийского университета в Беркли, который быстро выполняет MapReduce в оперативной памяти. Spark построен на Scala. The ...
A = load '/home/wrdtest.txt'; B = foreach A сгенерировать сглаживание (TOKENIZE ((chararray) $ 0)) как слово; C = фильтровать B по слову! = 'The'; D = группа C по словам; E = foreach D генерирует COUNT (C) как count, group ...
У меня есть простой текстовый файл с миллионами строк, который требует специального синтаксического анализа, и я хочу его загрузить в таблицу HBase как можно быстрее (с использованием клиента Hadoop или HBase Java). Мой текущий ...
У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной