Я хочу обнаружить дубликаты файлов в дереве каталогов. При обнаружении двух одинаковых файлов будет сохранен только один из дубликатов, а остальные дубликаты будут удалены для экономии места на диске.
Под дубликатом понимаются файлы с одинаковым содержимым, которые могут отличаться именами и путями.
Я думал об использовании алгоритмов хеширования для этой цели, но есть шанс, что разные файлы имеют одинаковые хэши, поэтому мне нужен какой-то дополнительный механизм, чтобы сообщить мне, что файлы не одинаковы, даже если хэши одинаковы. потому что я не хочу удалять два разных файла.
Какой дополнительный быстрый и надежный механизм вы бы использовали?