У меня есть список из 120 миллионов записей размером примерно 40/50 байт каждая, что составляет примерно 5,5 / 6 гигабайт необработанного пространства памяти, не включая дополнительное хранилище, необходимое для хранения массива в памяти.
Я хотел бы убедитесь, что этот список уникален. Я пытался сделать это следующим образом: создать Hashset
Когда я получаю около 33 миллионов записей, у меня заканчивается память, и создание списка замедляется до сканирование.
Есть ли лучший способ своевременно отсортировать этот огромный список записей? Единственное решение, которое я могу придумать, - это использование четырехместного сверхбольшого экземпляра Amazon EC2 High-Memory Quadruple Extra Large в течение часа.
Спасибо