Я пытаюсь записать сценарий Python для обнаружения дубликата mp3/4 файлы с помощью данных песни в качестве основы для сравнения. Моя ситуация связала много mp3/4 файлов с подобными именами файлов, но различные теги ID3. Сначала я попробовал цикличное выполнение через и использующий md5 для нахождения дубликатов файлов (игнорирующий имена файлов). Это, конечно, не работало, когда теги ID3 не соответствовали.
В результате я ищу способ извлечь только музыкальные данные из mp3/4, чтобы выполнить их через md5 и найти любые дубликаты. Что лучший способ состоит в том, чтобы пойти об этом?
Попробуйте использовать id3-py или мутаген , чтобы вырезать все теги (как ID3v1, так и ID3v2, они оба могут находиться в одном файле), затем вычислите MD5 на результат.
Предполагая, что iTunes не манипулировала файлом, кроме тегов, они должны быть идентичными. Транскодирование, очевидно, сделает этот подход недействительным.
На самом деле это довольно продвинутая вещь типа нечеткой логики, о которой вы спрашиваете.
Это не ответ, но взгляните на обсуждение в этой статье: Обнаруживать дубликаты файлов MP3 с разным битрейтом и / или разными тегами ID3? (На самом деле это может считаться обманом .. . Это даже для Python.)