Я иногда слышал, особенно в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаруживать повторяющиеся страницы путем хеширования содержимого страницы. Какие хеш-функции могут хешировать всю веб-страницу (которая состоит как минимум из двух пейджеров), чтобы две копии имели одинаковое выходное значение хеш-функции? Каков размер типичного выходного значения хеш-функции?
Могут ли такие хеш-функции поместить 2 похожие веб-страницы с небольшими опечатками и т. Д. В одну корзину?
Спасибо,