Удаление повторяющихся строк из очень большого текстового файла

Мне нужно удалить повторяющиеся строки из очень большого текстового файла (100 ГБ+)

Поскольку удаление дубликатов в памяти безнадежно из-за размера данных, Я пробовал bloomfilter, но бесполезно, если не более 50 миллионов строк..

всего строк около 1 триллиона+

Я хочу знать, как решить эту проблему..

Моя первоначальная попытка, разделить файл на количество подфайлов, отсортировать каждый файл, а затем объединить все файлы вместе...

Если у вас есть лучшее решение, чем это, сообщите мне,

Спасибо..

15
задан Shivraj 22 March 2012 в 03:50
поделиться