Получить прошлый лимит запросов при сканировании веб-сайта

Я работаю над поисковым роботом, который индексирует сайты, которые не нужно индексировать.

Моя первая попытка: Я написал краулер на C #, который просматривает каждую страницу и загружает их. Это привело к тому, что мой IP-адрес был заблокирован их серверами в течение 10 минут.

Я переместил его на amazon EC2 и написал распределенный скрипт python, который запускает около 50 экземпляров. Это остается чуть выше их порога загрузки меня.Это также стоит около 1900 долларов в месяц ...

Я вернулся к своей первоначальной идее и положил ее в основу сокращенной версии сети TOR. Это сработало, но было очень медленно.

У меня нет идей. Как я могу обойтись без блокировки меня за повторяющиеся запросы?

Когда я говорю «блок», они фактически выдают мне случайную ошибку 404 «не найдено» на страницах, которые определенно существуют. Это случайно и начинается только после того, как я передаю около 300 запросов в час.

10
задан brandon 12 December 2011 в 15:15
поделиться