Можно также запустить сервис через командную строку (sc.exe).
Лично, я выполнил код как автономную программу в фазу отладки, и когда большинство ошибок сглажено, изменяется на выполнение как сервис.
Существует протокол Open Archives Initiative Protocol for Metadata Harvesting, который использует xml вместо html. Вы можете найти его по адресу : http://www.openarchives.org/Register/BrowseSites
Также Глубокий веб (также называемый Deepnet, невидимый веб, темный веб или скрытый веб) относится к содержимому Всемирной паутины, которое не является частью поверхностного веба, который индексируется стандартными поисковыми системами.
Коммерческие поисковые системы начали изучать альтернативные методы поиска в глубоком Интернете. Протокол Sitemap (впервые разработанный Google) и mod oai - это механизмы, позволяющие поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокого Интернета на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать URL-адреса, которые доступны на них, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностным Интернетом. Система всплытия в глубоком Интернете Google предварительно вычисляет запросы для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Результаты всплытия составляют тысячу запросов в секунду к содержимому глубокого Интернета. В этой системе предварительный расчет представлений осуществляется с помощью трех алгоритмов:
(1) выбор входных значений для текстовых поисковых вводов, которые принимают ключевые слова,
(2) определение вводов, которые принимают только значения определенного типа (например, дату), и
(3) выбор небольшого числа входных комбинаций, которые генерируют URL, подходящие для включения в индекс веб-поиска.
Если Google не может проиндексировать ни одну из этих страниц, почему вы думаете, что библиотека с открытым исходным кодом сможет это сделать? :)
Тем не менее, в вашей статье есть несколько ссылок на сканирование глубокой сети, которые могут быть хорошим местом для начала исследования. Вот некоторые другие: