Разработка веб-краулера

Я наткнулся на вопрос интервью «Если бы вы разрабатывали веб-сканер, как бы вы не попали в бесконечные циклы?», И я пытаюсь ответить на него.

Как все начинается с самого начала. Скажем, Google начал с нескольких центральных страниц, скажем, их сотни (как эти центральные страницы были обнаружены - это другой подвопрос). Поскольку Google следует по ссылкам со страницы и так далее, продолжает ли он создавать хеш-таблицу, чтобы убедиться, что она не следует за ранее посещенными страницами.

Что, если одна и та же страница имеет 2 имени (URL-адреса), скажем в наши дни когда у нас есть сокращатели URL и т. д.

Я взял в качестве примера Google. Хотя Google не сообщает, как работают его алгоритмы поискового робота, ранжирование страниц и т. Д., Но есть догадки?

69
задан Kara 12 December 2013 в 01:25
поделиться