Существует ли способ вынудить паука замедлить свой глобальный поиск веб-сайта? Что-нибудь, что может быть помещено в заголовки или robots.txt?
Я думал, что не забыл читать что-то об этом являющемся возможным, но ничего не могу найти теперь.
Если вы ссылаетесь на Google, вы можете снизить скорость, с которой Google "паук" передает ваш сайт, используя ваш аккаунт Google Webmaster (Google Webmaster Tools).
Есть также и такая возможность, которую вы можете поместить в robots.txt
User-agent: *
Crawl-delay: 10
Где задержка сканирования определяется как количество секунд между просмотрами каждой страницы. Конечно, как и все остальное в robots.txt, гусеничный просмотрщик должен это уважать, поэтому YMMV.
См. Дроссеты вашего веб-сервера для решения для решения Perl. Рэндал Шварц сказал, что пережил атаку Slashdot, используя это решение.
Помимо использования инструментов Google Webmaster для GoogleBot (см. Robert Harvey Ответ), Yahoo! и Bing Поддержка нестандартных Delive
Директива в Robots.txt
:
http://en.wikipedia.org/wiki/ Robots.txt # Nonstandard_extensions
Когда толчок приходит в Shove, однако, плохой бот, который хлопнул ваш сайт, просто должен быть заблокирован на более высоком уровне (например, балансировщик нагрузки, маршрутизатор, кэширование прокси, что подходит для вашей архитектуры) Отказ
Я не думаю, что роботы будут делать что-либо, кроме как разрешать или запрещать. Большинство поисковых систем позволят вам настроить, как они индексируют ваш сайт.
Если у вас есть специальный агент, который вызывает проблемы, вы можете либо заблокировать его специально, либо посмотреть, сможете ли вы его настроить.