Как работает хеширование всего содержимого веб-страницы?

Question

Как работает хеширование всего содержимого веб-страницы?

Я иногда слышал, особенно в контексте поиска информации, поисковых систем, сканеров и т. Д., Что мы можем обнаруживать повторяющиеся страницы путем хеширования содержимого страницы. Какие хеш-функции могут хешировать всю веб-страницу (которая состоит как минимум из двух пейджеров), чтобы две копии имели одинаковое выходное значение хеш-функции? Каков размер типичного выходного значения хеш-функции?

Могут ли такие хеш-функции поместить 2 похожие веб-страницы с небольшими опечатками и т. Д. В одну корзину?

Спасибо,

5

algorithm data-structures hash indexing search-engine

задан Fred Foo 30 April 2011 в 10:46

0 ответов

Другие вопросы по тегам:

algorithm data-structures hash indexing search-engine

Как работает хеширование всего содержимого веб-страницы?

0 ответов

Похожие вопросы: