Я выполняю задание потоковой передачи в Hadoop (на Amazon EMR) с преобразователем и редуктором, написанным на Python. Я хочу знать, какой прирост скорости я получил бы, если бы реализовал один и тот же преобразователь и редуктор в Java (или использовал Pig).
В частности, я ищу людей по переходу от потоковой передачи к пользовательским развертываниям jar и / или Свинья, а также документы, содержащие эталонные сравнения этих вариантов. Я нашел этот вопрос , но ответы для меня недостаточно конкретны. Я ищу не сравнения Java и Python, а сравнение между развертыванием пользовательского jar-файла в Hadoop и потоковой передачей на основе Python.
Моя работа - считывать количество NGram из набора данных NGgram Google Книг и вычислять агрегированные показатели. Похоже, загрузка ЦП на вычислительных узлах близка к 100%. (Я также хотел бы услышать ваше мнение о различиях между заданиями, привязанными к ЦП или IO.)
Спасибо!
Амач