Сделайте поисковый робот / пауком

Я изучаю создание поискового робота / паук, но мне нужен кто-то для указания на меня в правильном направлении для начала работы.

В основном мой паук собирается искать звуковые файлы и индексировать их.

Я просто задаюсь вопросом, есть ли у кого-либо какие-либо идеи для того, как я должен сделать это. Я услышал делание, это в PHP было бы чрезвычайно медленно. Я знаю vb.net, таким образом, это могло пригодиться?

Я думал об использовании, Гуглит поиск типа файла, чтобы заставить ссылки проверять. Это было бы в порядке?

5
задан the Tin Man 29 December 2015 в 20:42
поделиться

2 ответа

В VB.NET вам нужно сначала получить HTML, поэтому используйте класс WebClient или классы HttpWebRequest и HttpWebResponse. В сети есть много информации о том, как их использовать.

Затем вам нужно будет проанализировать HTML. Я рекомендую использовать для этого регулярные выражения.

Ваша идея использовать Google для поиска по типу файлов - хорошая идея. Я сделал то же самое несколько лет назад, чтобы собрать PDF-файлы для тестирования индексации PDF-файлов в SharePoint, и это очень хорошо сработало.

2
ответ дан 15 December 2019 в 00:48
поделиться

Вот ссылка на учебник по написанию веб-краулера на java. http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/ Я уверен, что если погуглить, то можно найти и для других языков.

2
ответ дан 15 December 2019 в 00:48
поделиться
Другие вопросы по тегам:

Похожие вопросы: