Есть ли способ сохранить дубликаты в собранном наборе в Hive или смоделировать совокупную коллекцию, которую предоставляет Hive, с помощью другого метода? Я хочу объединить все элементы в столбце с одинаковым ключом в массив с дубликатами.
IE:
hash_id | num_of_cats
=====================
ad3jkfk 4
ad3jkfk 4
ad3jkfk 2
fkjh43f 1
fkjh43f 8
fkjh43f 8
rjkhd93 7
rjkhd93 4
rjkhd93 7
должен вернуть:
hash_agg | cats_aggregate
===========================
ad3jkfk Array<int>(4,4,2)
fkjh43f Array<int>(1,8,8)
rjkhd93 Array<int>(7,4,7)