Любая хорошая платформа веб-сканирования с открытым исходным кодом на C #

Я создаю механизм сравнения покупок, и мне нужно создать механизм сканирования для выполнения ежедневного процесса сбора данных.

Я решил создать искатель на C #. У меня много плохого опыта работы с классами HttpWebRequest / HttpWebResponse, и они, как известно, содержат много ошибок и нестабильны для больших обходов. Поэтому я решил НЕ опираться на них. Даже во фреймворке 4.0 они содержат ошибки.

Я говорю по своему личному опыту.

Я хотел бы получить мнения от экспертов, которые кодируют краулеры, если они знают о каких-либо хороших фреймворках для сканирования с открытым исходным кодом, например, в java есть орех и общие библиотеки apache, которые являются очень стабильными и высоконадежными библиотеками.

Если на C # уже есть какие-то инфраструктуры сканирования, Я собираюсь построить свое приложение на их основе.

Если нет, я планирую расширить это решение из проекта кода и расширить его.

http://www.codeproject.com/KB/IP/Crawler. aspx

Если кто-нибудь может предложить мне лучший путь, я буду очень благодарен.

РЕДАКТИРОВАТЬ: некоторые сайты, которые мне нужно сканировать, отображают страницу с использованием очень сложных сценариев Java, теперь это усложнило моим поисковым роботам поскольку мне нужно сканировать страницы, отображаемые с помощью JavaScript. Если кто-то использовал какую-либо библиотеку на C #, которая может сканировать отрисованный javascript, поделитесь. Я использовал ватин, который мне не нравится, и я также знаю о селене. Если вы знаете что-то еще, пожалуйста, поделитесь со мной и сообществом.

Почему метод hashCode () может возвращать одно и то же значение для разных объектов? Разве это не вызывает проблем?

16
задан Boann 29 January 2016 в 15:10
поделиться