0
ответов

Как UDFMethodResolver работает в классе Hive UDF?

Я новичок в Улей. Я узнал, что пользовательская функция может быть создана с любой сигнатурой метода методаvalu (). (За исключением типа возврата void). Мне любопытно узнать, как UDFMethodResolver разрешает ...
вопрос задан: 28 March 2019 06:02
0
ответов

Лучшие практики Amazon MapReduce для анализа журналов

Я анализирую журналы доступа, созданные Apache, Nginx, Darwin (сервер потокового видео), и собираю статистику для каждого доставленного файла по дате. /реферер/юзерагент. Тонны логов генерируются каждый...
вопрос задан: 8 November 2018 22:31
0
ответов

Hadoop генерирует исключение ClassCastException для типа ключа java.nio.ByteBuffer

. Я использую hadoop-0.20.203.0rc1.tar.gz для настройки кластера. Всякий раз, когда я устанавливаю job.setMapOutputKeyClass (ByteBuffer.class); и запустите задание. Я получаю следующее Исключение: 12/01/13 15:09:00 INFO ...
вопрос задан: 24 October 2012 03:22
0
ответов

Amazon Elastic MapReduce -SIGTERM

У меня есть потоковое задание EMR (Python ), которое обычно работает нормально (, например. 10 машин, обрабатывающих 200 входных данных ). Однако, когда я запускаю его на больших наборах данных (12 машин, обрабатывающих в общей сложности 6000 входных данн
вопрос задан: 15 August 2012 13:59
0
ответов

Задание Hadoop :работает нормально на меньшем наборе данных, но не работает с большим набором данных

У меня следующая ситуация: у меня есть кластер из 3 машин со следующей конфигурацией. Основное использование / :91,4% от 74,41 ГБ MemTotal :16557308 кБ MemFree :723736 КБ Ведомый 01...
вопрос задан: 22 July 2012 16:40
0
ответов

Как получить имя входного файла в MRjob

Я пишу функцию карты, используя mrjob. Мой ввод будет поступать из файлов в каталоге на HDFS. Имена файлов содержат небольшую, но важную информацию, которой нет в самих файлах. Есть...
вопрос задан: 11 July 2012 14:26
0
ответов

Сводная таблица с Apache Pig

Интересно, можно ли свернуть таблицу за один проход в Apache Pig. Ввод: идентификатор Column1 Column2 Column3 1 ряд11 ряд12 ряд13 2 Row21 Row22 Row23 Вывод: ID Имя Значение ...
вопрос задан: 26 June 2012 18:18
0
ответов

Передавать каталоги, а не файлы, в потоковую передачу Hadoop-?

По моей работе мне приходится анализировать множество исторических наборов журналов. Отдельные клиенты (а их тысячи)могут иметь сотни подкаталогов журналов, разбитых по дате. Например, :журналы/Клиент_Один/...
вопрос задан: 10 April 2012 20:08
0
ответов

Как передать параметр в задание потоковой передачи Python Hadoop?

Для задания потоковой передачи Python Hadoop, как передать параметр, например, в сценарий редуктора чтобы он вел себя по-разному в зависимости от переданного параметра? Я понимаю, что потоковые задания ...
вопрос задан: 1 March 2012 00:43
0
ответов

Сортировка по значению в Hadoop из файла

У меня есть файл, содержащий String, затем пробел и затем число в каждой строке. Пример: Строка1: Слово 2 Строка2 : Слово1 8 Строка3: Word2 1 Мне нужно отсортировать числа в порядке убывания, а затем поместить ...
вопрос задан: 3 February 2012 18:18
0
ответов

Могу ли я принудительно запускать свои редукторы (этап копирования) только после завершения всех сопоставлений

У меня есть задание hadoop с довольно длинной фазой сопоставления, и я хочу, чтобы другие короткие задания выполнялись с приоритетом. Для этого я установил приоритет моей длинной работы с помощью hadoop job -set-priority job_id LOW. Проблема ...
вопрос задан: 16 January 2012 08:32
0
ответов

Как читать последовательный файл hadoop?

У меня есть последовательный файл, который является выходом задания сокращения карты hadoop. В этом файле записываются данные в парах ключ-значение, а само значение представляет собой карту. Я хочу прочитать значение как объект MAP, чтобы я ...
вопрос задан: 25 November 2011 05:54