В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные.
Я провел небольшое исследование по обнаружению дубликатов в потоках данных и прочитал Стабильные фильтры Блума . Стабильные фильтры Блума — это структуры данных для обнаружения дубликатов в потоках данных с верхней границей частоты ложных срабатываний.
Но я хочу идентифицировать близкие дубликаты, и я также рассмотрел алгоритмы хэширования, такие как LSH и MinHash, которые используются в задачах с ближайшими соседями и обнаружении близких дубликатов.
Я немного застрял и ищу подсказки о том, как действовать, и документы/реализации, на которые я мог бы взглянуть?