Еще один синтаксический анализатор html Мне очень понравилось использовать jsoup . Вы можете получить все элементы в 2 строках кода.
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements ps = doc.select("p");
Затем записать его в файл в еще одну строку
out.write(ps.text()); //it will append all of the p elements together in one long string
или если вы хотите их на отдельных строках вы можете перебирать элементы и записывать их отдельно.