вы можете просто сделать метод с несколькими replaceAll (), подобный
String RemoveTag(String html){
html = html.replaceAll("\\<.*?>","")
html = html.replaceAll(" ","");
html = html.replaceAll("&"."");
----------
----------
return html;
}
Используйте эту ссылку для наиболее часто используемых замен: http://tunes.org/wiki/html_20special_20characters_20and_20symbols. html
Это просто, но эффективно. Сначала я использую этот метод, чтобы удалить мусор, но не самую первую строку, т.е. replaceAll ("\ & lt;. *?>", ""), А позже я использую определенные ключевые слова для поиска индексов, а затем использую .substring (start, end), чтобы удалить ненужные вещи. Поскольку это более устойчиво, и вы можете точно указать, что вам нужно на всей странице html.
По-видимому, слово было по крайней мере один словарь .
Но кажется странным, что они включили бы это, а не собачьи .
Может быть, неправильное толкование Birdperson .