Почти обнаружение дубликатов в потоках данных

В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные.

Я провел небольшое исследование по обнаружению дубликатов в потоках данных и прочитал Стабильные фильтры Блума . Стабильные фильтры Блума — это структуры данных для обнаружения дубликатов в потоках данных с верхней границей частоты ложных срабатываний.

Но я хочу идентифицировать близкие дубликаты, и я также рассмотрел алгоритмы хэширования, такие как LSH и MinHash, которые используются в задачах с ближайшими соседями и обнаружении близких дубликатов.

Я немного застрял и ищу подсказки о том, как действовать, и документы/реализации, на которые я мог бы взглянуть?

5
задан Matti Lyra 21 November 2012 в 10:59
поделиться