Я знаю, что это старо, но я просто работал над проектом, который требовал от меня фильтрации HTML, и это сработало нормально:
noHTMLString.replaceAll("\\&.*?\\;", "");
вместо этого:
html = html.replaceAll(" ","");
html = html.replaceAll("&"."");