Таким образом, у нас успешно работает stormcrawler, и в основной индекс в настоящее время добавлено чуть более 2 миллионов URL-адресов с наших различных веб-сайтов. Это работает хорошо, однако SC не кажется ...
Работая над Storm Crawler 1.13, успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновлен как FETCH_ERROR ...