Использование Pig / Hive для обработки данных вместо кода сокращения прямой карты Java?

(Даже более простой, чем Различия между Pig и Hive? Почему оба? )

У меня есть конвейер обработки данных, написанный в нескольких задачах Java map-reduce через Hadoop (мой собственный код, полученный из Mapper и Reducer Hadoop).Это серия основных операций, таких как объединение, инверсия, сортировка и группировка по. Мой код задействован и не очень общий.

Каковы плюсы и минусы продолжения этого, по общему признанию, интенсивного подхода к разработке по сравнению с переносом всего на Pig / Hive с несколькими UDF? какие работы я не смогу выполнить? будет ли у меня снижение производительности (при работе с сотнями ТБ)? потеряю ли я возможность настраивать и отлаживать свой код при обслуживании? смогу ли я передать часть заданий в конвейер как Java map-reduce и использовать их ввод-вывод с моими заданиями Pig / Hive?

5
задан Community 23 May 2017 в 11:50
поделиться