Обнаружение дубликатов файлов

Я хочу обнаружить дубликаты файлов в дереве каталогов. При обнаружении двух одинаковых файлов будет сохранен только один из дубликатов, а остальные дубликаты будут удалены для экономии места на диске.

Под дубликатом понимаются файлы с одинаковым содержимым, которые могут отличаться именами и путями.

Я думал об использовании алгоритмов хеширования для этой цели, но есть шанс, что разные файлы имеют одинаковые хэши, поэтому мне нужен какой-то дополнительный механизм, чтобы сообщить мне, что файлы не одинаковы, даже если хэши одинаковы. потому что я не хочу удалять два разных файла.

Какой дополнительный быстрый и надежный механизм вы бы использовали?

5
задан xralf 21 March 2012 в 15:51
поделиться