COLLECT_SET () в Hive, хранить дубликаты?

Есть ли способ сохранить дубликаты в собранном наборе в Hive или смоделировать совокупную коллекцию, которую предоставляет Hive, с помощью другого метода? Я хочу объединить все элементы в столбце с одинаковым ключом в массив с дубликатами.

IE:

hash_id | num_of_cats
=====================
ad3jkfk            4
ad3jkfk            4
ad3jkfk            2
fkjh43f            1
fkjh43f            8
fkjh43f            8
rjkhd93            7
rjkhd93            4
rjkhd93            7

должен вернуть:

hash_agg | cats_aggregate
===========================
ad3jkfk   Array<int>(4,4,2)
fkjh43f   Array<int>(1,8,8)
rjkhd93   Array<int>(7,4,7)
37
задан batman 22 June 2011 в 19:23
поделиться