Как я преобразовываю специальные символы с помощью Java?

Question

Как я преобразовываю специальные символы с помощью Java?

У меня есть строки как:

AveryÂ® Laser &amp; Inkjet Self-Adhesive

Я должен преобразовать их в

Avery Laser & Inkjet Self-Adhesive.

Т.е. удалите специальные символы и преобразуйте HTML специальные символы в регулярные.

8

java special-characters htmlspecialchars

задан Vladimir 18 February 2010 в 09:22

3 ответа

Может быть, вы могли бы использовать что-то вроде:

yourTxt = yourTxt.replaceAll("&amp;", "&");

в каком-то проекте я сделал что-то вроде:

public String replaceAcutesHTML(String str) {

str = str.replaceAll("&aacute;","á");
str = str.replaceAll("&eacute;","é");
str = str.replaceAll("&iacute;","í");
str = str.replaceAll("&oacute;","ó");
str = str.replaceAll("&uacute;","ú");
str = str.replaceAll("&Aacute;","Á");
str = str.replaceAll("&Eacute;","É");
str = str.replaceAll("&Iacute;","Í");
str = str.replaceAll("&Oacute;","Ó");
str = str.replaceAll("&Uacute;","Ú");
str = str.replaceAll("&ntilde;","ñ");
str = str.replaceAll("&Ntilde;","Ñ");

return str;

}

1

ответ дан 5 December 2019 в 06:09

Вы можете использовать класс StringEscapeUtils из проекта Apache Commons Text .

6

ответ дан 5 December 2019 в 06:09

Другие вопросы по тегам:

java special-characters htmlspecialchars

Похожие вопросы:

score 19 · Accepted Answer

AveryÂ® Laser &amp; Inkjet Self-Adhesive

Первое использование StringEscapeUtils # unescapeHtml4 () (или #unescapeXml () , в зависимости от исходного формата) для отмены экранирования и в и . Затем используйте String # replaceAll () на [^ \ x20- \ x7e] , чтобы избавиться от символов, которые не входят в печатаемый диапазон ASCII .

Резюме:

String clean = StringEscapeUtils.unescapeHtml4(dirty).replaceAll("[^\\x20-\\x7e]", "");

.. который производит

Avery Laser & Inkjet Self-Adhesive

(без конечной точки, как в вашем примере, но ее не было в оригинале;))

Тем не менее, это, однако, больше похоже на запрос на обходной путь , чем на запрос к решению . Если вы подробнее расскажете о функциональных требованиях и / или о происхождении этой строки, мы сможем предоставить правильное решение. Â® , похоже, вызвано использованием неправильной кодировки для чтения строки, а и выглядят как вызванные использованием текстового синтаксического анализатора для чтения строки вместо полноценного HTML-парсера.