Я хочу загрузить исходный код HTML сайта для парсинга некоторой информации. Как я выполняю это в Java?
Просто прикрепите буферрезер (или все, что читает строки) из ввода URL-адреса, возвращаемого из OpenStream ().
public static void main(String[] args)
throws IOException
{
URL url = new URL("http://stackoverflow.com/");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
String s = null;
while ((s = reader.readLine()) != null)
System.out.println(s);
}
Классы Java можно использовать непосредственно:
URL url = new URL("http://www.example.com");
URLConnection conn = url.openConnection();
InputStream in = conn.getInputStream();
...
, но более рекомендуется использовать Apache StartClient , так как при работе с собственными классами Java будет обрабатываться много вещей.