Что запросы/секунда является стандартным для очистки веб-сайтов?

Это было самым близким вопросом моему вопросу, и ему действительно не ответили очень хорошо imo:

Сеть, очищающая этикет

Я ищу ответ на № 1:

Сколько запросов/секунда необходимо делать для очистки?

Прямо сейчас я вытягиваю от очереди ссылок. Каждый сайт, который очищен, имеет свой собственный поток и сны для 1 второго промежуточного запроса. Я прошу gzip сжатие сохранять пропускную способность.

Есть ли стандарты для этого? Конечно, все большие поисковые системы имеют некоторый набор инструкций, за которыми они следуют в отношении этого.

5
задан Community 23 May 2017 в 12:34
поделиться

3 ответа

Для этого нет установленного стандарта, все зависит от того, насколько велика нагрузка, которую вызывает веб-скрейпинг. Если вы не оказываете заметного влияния на скорость работы сайта для других пользователей, то скорость скраппинга должна быть приемлемой.

Поскольку количество пользователей и нагрузка на сайт постоянно колеблется, было бы неплохо динамически регулировать скорость скраппинга.

Следите за задержкой загрузки каждой страницы, и если задержка начинает увеличиваться, начните снижать скорость скраппинга. По сути, загрузка/латентность сайта должна быть обратно пропорциональна скорости скраппинга.

3
ответ дан 13 December 2019 в 22:02
поделиться

Когда мои клиенты / босс просят меня сделать что-то подобное, я обычно ищу общедоступный API, прежде чем прибегать к очистке общедоступного сайта. Также обращение к владельцу сайта или техническому контакту с просьбой разрешить это свести к минимуму количество писем «прекратить и воздерживаться».

1
ответ дан 13 December 2019 в 22:02
поделиться

в статье википедии о веб-ползании есть некоторая информация о том, что делают другие:

Cho[22] использует 10 секунд в качестве интервал для доступа, а WIRE crawler [28] использует 15 секунд как по умолчанию. Краулер MercatorWeb следует адаптивной политике вежливости: если для загрузки документ с данного сервера, то краулер ждет 10t секунд, прежде чем загрузки следующей страницы.[29] Dill и др.[30] используют 1 секунду.

Я обычно стараюсь использовать 5 секунд с некоторой случайностью, чтобы это выглядело менее подозрительно.

6
ответ дан 13 December 2019 в 22:02
поделиться
Другие вопросы по тегам:

Похожие вопросы: