Где хранить данные веб-сканера?

Question

Где хранить данные веб-сканера?

У меня есть простой поисковый робот, который запускается с корневого адреса (заданный URL), загружает HTML-код корневой страницы, затем просматривает гиперссылки и сканирует их. В настоящее время я храню html-страницы в базе данных SQL. В настоящее время я столкнулся с двумя проблемами:

Кажется, что сканирование достигает узкого места и не может сканировать быстрее, я где-то читал, что выполнение многопоточных HTTP-запросов для страниц может ускорить сканирование поискового робота, но я я не уверен, как это сделать.
Вторая проблема, мне нужна эффективная структура данных для хранения html-страниц и возможность запускать на них операции интеллектуального анализа данных (в настоящее время использую базу данных SQL, хотелось бы услышать другие рекомендации).

Я использую .Net framework, C # и MS SQL

10

c# algorithm web-crawler

задан Brian Tompsett - 汤莱恩 20 December 2015 в 10:19

0 ответов

Другие вопросы по тегам:

c# algorithm web-crawler

Где хранить данные веб-сканера?

0 ответов

Похожие вопросы: