Я работаю над поисковым роботом, который индексирует сайты, которые не нужно индексировать.
Моя первая попытка: Я написал краулер на C #, который просматривает каждую страницу и загружает их. Это привело к тому, что мой IP-адрес был заблокирован их серверами в течение 10 минут.
Я переместил его на amazon EC2 и написал распределенный скрипт python, который запускает около 50 экземпляров. Это остается чуть выше их порога загрузки меня.Это также стоит около 1900 долларов в месяц ...
Я вернулся к своей первоначальной идее и положил ее в основу сокращенной версии сети TOR. Это сработало, но было очень медленно.
У меня нет идей. Как я могу обойтись без блокировки меня за повторяющиеся запросы?
Когда я говорю «блок», они фактически выдают мне случайную ошибку 404 «не найдено» на страницах, которые определенно существуют. Это случайно и начинается только после того, как я передаю около 300 запросов в час.