Как работает хеширование всего содержимого веб-страницы?

Я иногда слышал, особенно в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаруживать повторяющиеся страницы путем хеширования содержимого страницы. Какие хеш-функции могут хешировать всю веб-страницу (которая состоит как минимум из двух пейджеров), чтобы две копии имели одинаковое выходное значение хеш-функции? Каков размер типичного выходного значения хеш-функции?

Могут ли такие хеш-функции поместить 2 похожие веб-страницы с небольшими опечатками и т. Д. В одну корзину?

Спасибо,

5
задан Fred Foo 30 April 2011 в 10:46
поделиться