Есть ли какая-либо библиотека с открытым исходным кодом, которой можно пользоваться для поиска глубокой паутины? [закрытый]

Можно также запустить сервис через командную строку (sc.exe).

Лично, я выполнил код как автономную программу в фазу отладки, и когда большинство ошибок сглажено, изменяется на выполнение как сервис.

5
задан luvieere 30 November 2009 в 21:57
поделиться

2 ответа

Существует протокол Open Archives Initiative Protocol for Metadata Harvesting, который использует xml вместо html. Вы можете найти его по адресу : http://www.openarchives.org/Register/BrowseSites

Также Глубокий веб (также называемый Deepnet, невидимый веб, темный веб или скрытый веб) относится к содержимому Всемирной паутины, которое не является частью поверхностного веба, который индексируется стандартными поисковыми системами.

Коммерческие поисковые системы начали изучать альтернативные методы поиска в глубоком Интернете. Протокол Sitemap (впервые разработанный Google) и mod oai - это механизмы, позволяющие поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокого Интернета на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать URL-адреса, которые доступны на них, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностным Интернетом. Система всплытия в глубоком Интернете Google предварительно вычисляет запросы для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Результаты всплытия составляют тысячу запросов в секунду к содержимому глубокого Интернета. В этой системе предварительный расчет представлений осуществляется с помощью трех алгоритмов:

(1) выбор входных значений для текстовых поисковых вводов, которые принимают ключевые слова,

(2) определение вводов, которые принимают только значения определенного типа (например, дату), и

(3) выбор небольшого числа входных комбинаций, которые генерируют URL, подходящие для включения в индекс веб-поиска.

3
ответ дан 15 December 2019 в 01:03
поделиться

Если Google не может проиндексировать ни одну из этих страниц, почему вы думаете, что библиотека с открытым исходным кодом сможет это сделать? :)

Тем не менее, в вашей статье есть несколько ссылок на сканирование глубокой сети, которые могут быть хорошим местом для начала исследования. Вот некоторые другие:

  • Deep Web Research содержит МНОГО полезных ссылок.
  • deepwebtech.com утверждает, что у него есть глубокая поисковая машина, хотя в настоящее время она не работает.
1
ответ дан 15 December 2019 в 01:03
поделиться
Другие вопросы по тегам:

Похожие вопросы: