Создание уникального списка из набора данных, слишком большого для размещения в памяти

У меня есть список из 120 миллионов записей размером примерно 40/50 байт каждая, что составляет примерно 5,5 / 6 гигабайт необработанного пространства памяти, не включая дополнительное хранилище, необходимое для хранения массива в памяти.

Я хотел бы убедитесь, что этот список уникален. Я пытался сделать это следующим образом: создать Hashset и добавить к нему все записи одну за другой.

Когда я получаю около 33 миллионов записей, у меня заканчивается память, и создание списка замедляется до сканирование.

Есть ли лучший способ своевременно отсортировать этот огромный список записей? Единственное решение, которое я могу придумать, - это использование четырехместного сверхбольшого экземпляра Amazon EC2 High-Memory Quadruple Extra Large в течение часа.

Спасибо

5
задан gary 5 January 2011 в 08:23
поделиться