Разработка веб-краулера

Question

Разработка веб-краулера

Я наткнулся на вопрос интервью «Если бы вы разрабатывали веб-сканер, как бы вы не попали в бесконечные циклы?», И я пытаюсь ответить на него.

Как все начинается с самого начала. Скажем, Google начал с нескольких центральных страниц, скажем, их сотни (как эти центральные страницы были обнаружены - это другой подвопрос). Поскольку Google следует по ссылкам со страницы и так далее, продолжает ли он создавать хеш-таблицу, чтобы убедиться, что она не следует за ранее посещенными страницами.

Что, если одна и та же страница имеет 2 имени (URL-адреса), скажем в наши дни когда у нас есть сокращатели URL и т. д.

Я взял в качестве примера Google. Хотя Google не сообщает, как работают его алгоритмы поискового робота, ранжирование страниц и т. Д., Но есть догадки?

69

data-structures search-engine web-crawler google-search large-data-volumes

задан Kara 12 December 2013 в 01:25

0 ответов

Другие вопросы по тегам:

data-structures search-engine web-crawler google-search large-data-volumes

Разработка веб-краулера

0 ответов

Похожие вопросы: