Я изучаю создание поискового робота / паук, но мне нужен кто-то для указания на меня в правильном направлении для начала работы.
В основном мой паук собирается искать звуковые файлы и индексировать их.
Я просто задаюсь вопросом, есть ли у кого-либо какие-либо идеи для того, как я должен сделать это. Я услышал делание, это в PHP было бы чрезвычайно медленно. Я знаю vb.net, таким образом, это могло пригодиться?
Я думал об использовании, Гуглит поиск типа файла, чтобы заставить ссылки проверять. Это было бы в порядке?
В VB.NET вам нужно сначала получить HTML, поэтому используйте класс WebClient или классы HttpWebRequest и HttpWebResponse. В сети есть много информации о том, как их использовать.
Затем вам нужно будет проанализировать HTML. Я рекомендую использовать для этого регулярные выражения.
Ваша идея использовать Google для поиска по типу файлов - хорошая идея. Я сделал то же самое несколько лет назад, чтобы собрать PDF-файлы для тестирования индексации PDF-файлов в SharePoint, и это очень хорошо сработало.
Вот ссылка на учебник по написанию веб-краулера на java. http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/ Я уверен, что если погуглить, то можно найти и для других языков.