Это было самым близким вопросом моему вопросу, и ему действительно не ответили очень хорошо imo:
Я ищу ответ на № 1:
Сколько запросов/секунда необходимо делать для очистки?
Прямо сейчас я вытягиваю от очереди ссылок. Каждый сайт, который очищен, имеет свой собственный поток и сны для 1 второго промежуточного запроса. Я прошу gzip сжатие сохранять пропускную способность.
Есть ли стандарты для этого? Конечно, все большие поисковые системы имеют некоторый набор инструкций, за которыми они следуют в отношении этого.
Для этого нет установленного стандарта, все зависит от того, насколько велика нагрузка, которую вызывает веб-скрейпинг. Если вы не оказываете заметного влияния на скорость работы сайта для других пользователей, то скорость скраппинга должна быть приемлемой.
Поскольку количество пользователей и нагрузка на сайт постоянно колеблется, было бы неплохо динамически регулировать скорость скраппинга.
Следите за задержкой загрузки каждой страницы, и если задержка начинает увеличиваться, начните снижать скорость скраппинга. По сути, загрузка/латентность сайта должна быть обратно пропорциональна скорости скраппинга.
Когда мои клиенты / босс просят меня сделать что-то подобное, я обычно ищу общедоступный API, прежде чем прибегать к очистке общедоступного сайта. Также обращение к владельцу сайта или техническому контакту с просьбой разрешить это свести к минимуму количество писем «прекратить и воздерживаться».
в статье википедии о веб-ползании есть некоторая информация о том, что делают другие:
Cho[22] использует 10 секунд в качестве интервал для доступа, а WIRE crawler [28] использует 15 секунд как по умолчанию. Краулер MercatorWeb следует адаптивной политике вежливости: если для загрузки документ с данного сервера, то краулер ждет 10t секунд, прежде чем загрузки следующей страницы.[29] Dill и др.[30] используют 1 секунду.
Я обычно стараюсь использовать 5 секунд с некоторой случайностью, чтобы это выглядело менее подозрительно.