В моем проекте мне нужен выделенный сервер, который отправляет потоки нескольким клиентам.
Подробнее конкретно я Я должен проанализировать описание из URL, где анализируемое содержимое имеет несколько HTML-тегов, так как я могу преобразовать его в обычный текст.
Парсер HTML, например htmlCleaner
Подробный ответ: Как удалить тег HTML в Java
Я бы рекомендовал анализировать необработанный HTML с помощью jTidy, что должно дать вам результат, против которого вы можете писать выражения xpath. Это самый надежный способ очистки HTML, который я нашел.
Просто избавиться от HTML-тегов очень просто:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
Но, к сожалению, требования никогда не бывают такими простыми:
Обычно элементы и
>
(например, javascript), которые искажают регулярное выражение и т. д.