Я пытаюсь разобрать дамп HTML любой данной страницы. Я использовал HTML Parser , а также пробовал JSoup для синтаксического анализа.
Я нашел полезные функции в Jsoup, но получаю сообщение об ошибке 403 при вызове.Document doc = Jsoup.connect(url).get();
Я попробовал HTTPClient, чтобы получить дамп HTML, и это было успешно для того же URL-адреса.
Почему JSoup выдает 403 для того же URL-адреса, который предоставляет контент из http-клиента Commons? Я делаю что-то неправильно? Есть предположения?