Библиотеки веб-краулера Java

Я хотел сделать веб-сканер на основе Java для эксперимента. Я слышал, что создание веб-краулера на Java было подходящим способом, если вы делаете это впервые. Однако у меня есть два важных вопроса.

  1. Как моя программа будет «посещать» или «подключаться» к веб-страницам? Пожалуйста, дайте краткое объяснение. (Я понимаю основы уровней абстракции от аппаратного до программного обеспечения, здесь меня интересуют абстракции Java)

  2. Какие библиотеки следует использовать? Я бы предположил, что мне нужна библиотека для подключения к веб-страницам, библиотека для протокола HTTP/HTTPS и библиотека для анализа HTML.

15
задан Kara 14 April 2014 в 22:27
поделиться