Потоковая передача или настраиваемый файл Jar в Hadoop

Я выполняю задание потоковой передачи в Hadoop (на Amazon EMR) с преобразователем и редуктором, написанным на Python. Я хочу знать, какой прирост скорости я получил бы, если бы реализовал один и тот же преобразователь и редуктор в Java (или использовал Pig).

В частности, я ищу людей по переходу от потоковой передачи к пользовательским развертываниям jar и / или Свинья, а также документы, содержащие эталонные сравнения этих вариантов. Я нашел этот вопрос , но ответы для меня недостаточно конкретны. Я ищу не сравнения Java и Python, а сравнение между развертыванием пользовательского jar-файла в Hadoop и потоковой передачей на основе Python.

Моя работа - считывать количество NGram из набора данных NGgram Google Книг и вычислять агрегированные показатели. Похоже, загрузка ЦП на вычислительных узлах близка к 100%. (Я также хотел бы услышать ваше мнение о различиях между заданиями, привязанными к ЦП или IO.)

Спасибо!

Амач

11
задан Community 23 May 2017 в 12:17
поделиться