Мне нужно удалить повторяющиеся строки из очень большого текстового файла (100 ГБ+)
Поскольку удаление дубликатов в памяти безнадежно из-за размера данных, Я пробовал bloomfilter, но бесполезно, если не более 50 миллионов строк..
всего строк около 1 триллиона+
Я хочу знать, как решить эту проблему..
Моя первоначальная попытка, разделить файл на количество подфайлов, отсортировать каждый файл, а затем объединить все файлы вместе...
Если у вас есть лучшее решение, чем это, сообщите мне,
Спасибо..