Где хранить данные веб-сканера?

У меня есть простой поисковый робот, который запускается с корневого адреса (заданный URL), загружает HTML-код корневой страницы, затем просматривает гиперссылки и сканирует их. В настоящее время я храню html-страницы в базе данных SQL. В настоящее время я столкнулся с двумя проблемами:

  1. Кажется, что сканирование достигает узкого места и не может сканировать быстрее, я где-то читал, что выполнение многопоточных HTTP-запросов для страниц может ускорить сканирование поискового робота, но я я не уверен, как это сделать.

  2. Вторая проблема, мне нужна эффективная структура данных для хранения html-страниц и возможность запускать на них операции интеллектуального анализа данных (в настоящее время использую базу данных SQL, хотелось бы услышать другие рекомендации).

Я использую .Net framework, C # и MS SQL

10
задан Brian Tompsett - 汤莱恩 20 December 2015 в 10:19
поделиться