Существует несколько способов создания строк адресов электронной почты, которые отличаются прямым сравнением строк (см. Ниже), но логически эквивалентны (т.е. почта, отправляемая обоим адресам, отправляется в один и тот же почтовый ящик). Это часто позволяет пользователям указывать кажущиеся уникальными адреса электронной почты, даже если строгое равенство было запрещено.
Я надеялся найти библиотеку, которая попыталась бы выполнить нормализацию, чтобы позволить найти некоторые дубликаты из больших наборов адресов электронной почты. Цель здесь - найти как можно больше дубликатов. Учитывая, насколько это полезно для нескольких целей (в моем случае это простое обнаружение злоупотреблений, поскольку учетные записи злоупотреблений обычно (пытаются) просто повторно использовать определенные учетные записи), я думаю, что могут быть существующие решения.
Итак, какие вещи может изменяться? Я знаю по крайней мере такие вещи, как:
В идеале это будет на Java, хотя языки сценариев также будут работать (инструмент командной строки)