Я хочу использовать уникальные хеши для каждой модели, а не идентификаторов.
Я реализовал следующую функцию для использования его через плату легко.
import random,hashlib
from base64 import urlsafe_b64encode
def set_unique_random_value(model_object,field_name='hash_uuid',length=5,use_sha=True,urlencode=False):
while 1:
uuid_number = str(random.random())[2:]
uuid = hashlib.sha256(uuid_number).hexdigest() if use_sha else uuid_number
uuid = uuid[:length]
if urlencode:
uuid = urlsafe_b64encode(uuid)[:-1]
hash_id_dict = {field_name:uuid}
try:
model_object.__class__.objects.get(**hash_id_dict)
except model_object.__class__.DoesNotExist:
setattr(model_object,field_name,uuid)
return
Я ищу обратную связь, как еще я мог сделать это? Как я могу улучшить его? Что хорошо плохой и ужасный об этом?
Используйте поддержку UUID движка базы данных вместо создания собственного хеша. Их поддерживает почти все, кроме SQLite, поэтому нет особых причин не использовать их.
Уродливое:
import random
Этот модуль реализует генераторы псевдослучайных чисел для различных дистрибутивов.
Если что, используйте os.urandom
Возвращает строку из n случайных байтов, подходящих для криптографического использования.
Вот как я использую его в своих моделях:
import os
from binascii import hexlify
def _createId():
return hexlify(os.urandom(16))
class Book(models.Model):
id_book = models.CharField(max_length=32, primary_key=True, default=_createId)
Мне не нравится этот бит:
uuid = uuid[:5]
В лучшем случае (uuid равномерно распределены) вы получите коллизию с вероятностью больше 0,5 после 1k элементов!
Это из-за проблемы дня рождения . Вкратце доказано, что вероятность столкновения превышает 0,5, когда количество элементов больше квадратного корня из количества возможных меток.
У вас есть 0xFFFFF = 10 ^ 6 меток (разные числа), поэтому после 1000 сгенерированных значений у вас начнутся коллизии.
Даже если вы увеличите длину до -1, у вас все еще есть проблема:
str(random.random())[2:]
У вас начнутся коллизии после 3 * 10 ^ 6 (те же вычисления будут выполнены).
Думаю, лучше всего использовать uuid, который с большей вероятностью будет уникальным. Вот пример
>>> import uuid
>>> uuid.uuid1().hex
'7e0e52d0386411df81ce001b631bdd31'
Обновление Если вы не доверяете математике, просто запустите следующий пример, чтобы увидеть столкновение:
>>> len(set(hashlib.sha256(str(i)).hexdigest()[:5] for i in range(0,2000)))
1999 # it should obviously print 2000 if there wasn't any collision