Создайте свои собственные коллизии MD5

Question

Создайте свои собственные коллизии MD5

У меня были хорошие результаты с https://github.com/patrickschur/language-detection , и я использую его в производстве:

Мое использование: я анализирую электронные письма для системы CRM, чтобы узнать, на каком языке написано электронное письмо, поэтому отправка текста в стороннюю службу не была возможной. Несмотря на то, что Всеобщая декларация прав человека, вероятно, не является лучшей основой для классификации языка электронных писем (поскольку электронные письма часто имеют формальные части, такие как приветствия, которые не являются частью Декларации прав человека), она определяет правильный язык примерно в 99% случаи, если в нем хотя бы 5 слов.

Обновление : мне удалось улучшить распознавание языка в электронных письмах до 100% при использовании библиотеки определения языка следующими способами:

Добавить дополнительные общие фразы к (соответствующие) образцы языка, такие как «Привет», «С наилучшими пожеланиями», «С уважением». Подобные выражения не используются во Всеобщей декларации прав человека. Часто используемые фразы помогают распознавать язык, особенно формульные, которые часто используют мои люди («Привет», «Хорошего дня»), если вы анализируете человеческое общение.
Установите максимальную длину ngram на 4 (вместо значения по умолчанию 3).
Держите maxNgrams на 9000, как и раньше.

Они действительно делают библиотеку немного медленнее, поэтому я бы предложил использовать их асинхронно, если это возможно, и измерить производительность. В моем случае это более чем достаточно быстро и намного точнее.

43

algorithm language-agnostic hash

задан russau 1 June 2009 в 03:50

5 ответов

I would take a look at Hashcash. With an effective hash algorithm, like md5, the time to calculate a collision to exponential with the number of bits. What Hashcash does is calculates partial collisions. That is, a match of say the lower 16 bits of the hash. To get the lower 16 bits to match, one would have to try hashing 2^15 different combinations on average. If you know how long it takes to come up with a 16, 24, or 32 bit collision, then you can easily calculate out the time for higher numbers of bits.

1

ответ дан 26 November 2019 в 23:05

Если вы говорите о том, насколько вероятно прямое столкновение - такое, в котором нет преднамеренной попытки вызвать его, - то вы будете разочарованы: вам нужно будет генерировать в среднем 2 ^ 64 открытых текста, прежде чем вы сможете ожидать столкновения, и это значительно больше, чем вы сможете сделать в разумное (или даже _не_ разумное) время.

Если вы хотите продемонстрировать сложность преднамеренного создания столкновения, другие ответы уже продемонстрировали это. Однако дополнительное ограничение, заключающееся в том, что строки должны быть полностью текстовыми, делает даже эти подходы в значительной степени непрактичными.

2

ответ дан 26 November 2019 в 23:05

Суть таких хешей в том, что коллизии крайне маловероятны. Вы не создадите его случайно - ваша машина почти наверняка умрет от старости, прежде чем вы добьетесь успеха. Весь смысл использования хэша исчез бы, если бы вы могли разумно генерировать коллизии!

re не создаст его случайно - ваша машина почти наверняка умрет от старости, прежде чем вы добьетесь успеха. Весь смысл использования хэша исчез бы, если бы вы могли разумно генерировать коллизии!

-3

ответ дан 26 November 2019 в 23:05

Трудно сделать это только с текстовыми файлами, AFAIK. Вы можете получить несколько столкновений, но сделать их также из [a-zA-Z] непросто (пока).

С другой стороны, если вам просто нужны два «значимых» - ища файлы с одинаковым хешем, вы можете сделать это, например, с помощью PostScript: иметь разные двоичные капли, вызывающие коллизию, и использовать условное выражение для отображения другого вывода соответственно.

См., например, эту проблему ] (часть H2) и решение . Например, этот файл PS и этот имеют одинаковую сумму MD5, но оба они представляют собой правильно сформированные файлы PostScript, в которых при открытии содержится совершенно другой текст.

3

ответ дан 26 November 2019 в 23:05

Другие вопросы по тегам:

algorithm language-agnostic hash

Создайте свои собственные коллизии MD5

5 ответов

Похожие вопросы: