В основном я хотел бы декодировать данный документ HTML и заменить все специальные символы, такой как " "
-> " "
, ">"
-> ">"
.
В.NET мы можем использовать HttpUtility.HtmlDecode
.
Какова эквивалентная функция в Java?
Я использовал Apache Commons StringEscapeUtils.unescapeHtml4 () для этого:
Отменяет экранирование строки, содержащей объект экранирует строку, содержащую фактические символы Unicode соответствующие побегам. Поддерживает Сущности HTML 4.0.