Как удалить html-тег при извлечении данных из JSON Url [duplicate]

Не знаю, найдет ли кто-нибудь это полезное - это скорее метод «hack n slash», но он прост и работает хорошо, если вы хотите только определенные символы.

$dictionary = "abcdfghjklmnpqrstvwxyz23456789";
$dictionary = str_split($dictionary);

// Encode
$str_id = '';
$base = count($dictionary);

while($id > 0) {
    $rem = $id % $base;
    $id = ($id - $rem) / $base;
    $str_id .= $dictionary[$rem];
}


// Decode
$id_ar = str_split($str_id);
$id = 0;

for($i = count($id_ar); $i > 0; $i--) {
    $id += array_search($id_ar[$i-1], $dictionary) * pow($base, $i - 1);
} 
373
задан dimo414 24 June 2016 в 03:13
поделиться

26 ответов

Использовать парсер HTML вместо регулярного выражения. Это мертво просто с помощью Jsoup .

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup также поддерживает удаление HTML-тэгов с настраиваемым «белым списком», что очень полезно, если вы хотите разрешить только <b>, <i> и <u>.

См. также:

489
ответ дан Community 15 August 2018 в 17:44
поделиться
  • 1
    Jsoup приятно, но я столкнулся с некоторыми недостатками. Я использую его, чтобы избавиться от XSS, поэтому в основном я ожидаю простой ввод текста, но какой-то злой человек может попробовать отправить мне HTML. Используя Jsoup, я могу удалить все HTML, но, к сожалению, он также сокращает много пробелов до одного и удаляет разрывы ссылок (\n символов) – Ridcully 31 July 2010 в 10:57
  • 2
    @Ridcully: для этого вы хотели бы использовать Jsoup#clean() . – BalusC 6 August 2010 в 19:24
  • 3
    использование clean () будет по-прежнему вызывать дополнительные пробелы и\n символов для удаления. ex: Jsoup.clean ("a\n b", Whitelist.none ()) возвращает "a b" – Keith 1 May 2011 в 23:15
  • 4
    @Nels: вы говорите о Jsoup#clean()? Да, безусловно. Нажмите кнопку & quot; Jsoup # clean () & quot; ссылку в моем предыдущем комментарии. – BalusC 24 October 2011 в 17:45
  • 5
    @Zeroows: это терпит неудачу на <p>Lorem ipsum 1 < 3 dolor sit amet</p>. Опять же, HTML не является регулярным языком . Это совершенно вне меня, потому что каждый продолжает ставить на него регулярное выражение, чтобы анализировать части интереса, а не использовать настоящий парсер. – BalusC 5 March 2013 в 16:24

вы можете просто сделать метод с несколькими replaceAll (), подобный

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

Используйте эту ссылку для наиболее часто используемых замен: http://tunes.org/wiki/html_20special_20characters_20and_20symbols. html

Это просто, но эффективно. Сначала я использую этот метод, чтобы удалить мусор, но не самую первую строку, т.е. replaceAll ("\ & lt;. *?>", ""), А позже я использую определенные ключевые слова для поиска индексов, а затем использую .substring (start, end), чтобы удалить ненужные вещи. Поскольку это более устойчиво, и вы можете точно указать, что вам нужно на всей странице html.

-1
ответ дан brainimus 15 August 2018 в 17:44
поделиться
  • 1
    Две заметки. Во-первых, это субоптимально - для каждого вызова replaceAll Java будет пытаться скомпилировать первый аргумент как регулярное выражение и пробежать всю строку, чтобы применить это регулярное выражение к строке, обрабатывая несколько десятков КБ для обычной HTML-страницы каждый раз. Во-вторых, советуем не использовать replaceAll для замены простых (не-regex) строк, но вместо этого используйте replace () (который также заменяет все, в отличие от названий). – fwielstra 23 December 2010 в 14:09

Если пользователь вводит <b>hey!</b>, вы хотите отобразить <b>hey!</b> или hey!? Если первый, бежать менее-thans и html-encode амперсанды (и, возможно, кавычки), и все в порядке. Модификация вашего кода для реализации второго варианта будет:

replaceAll("\\<[^>]*>","")

, но вы столкнетесь с проблемами, если пользователь введет что-то искаженное, например <bhey!</b>.

Вы можете также проверьте JTidy , который будет анализировать «грязный» html-ввод и должен дать вам способ удалить теги, сохраняя текст.

Проблема с попыткой разделить html что у браузеров очень мягкие парсеры, более мягкие, чем любая библиотека, которую вы можете найти, поэтому, даже если вы сделаете все возможное, чтобы стричь все теги (используя метод замещения выше, DOM-библиотеку или JTidy), вы еще / g1] необходимо обязательно закодировать любые оставшиеся специальные символы HTML, чтобы обеспечить безопасность вывода.

71
ответ дан Chris Marasti-Georg 15 August 2018 в 17:44
поделиться
  • 1
    Вы также сталкиваетесь с проблемами, если есть unescaped & lt; или & gt; подписываться внутри содержимого узла html. & lt; span & gt; Мой возраст & lt; много текста & gt; то ваш возраст & lt; / span & gt ;. Я думаю, что только 100% -ный способ сделать это через некоторый интерфейс XML DOM (например, SAX или аналогичный), использовать node.getText (). – Mitja Gustin 24 October 2017 в 13:14

Мои 5 центов:

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}
27
ответ дан CSchulz 15 August 2018 в 17:44
поделиться
  • 1
    Результат "a & lt; b или b & gt; с & Quot; «a b или b & gt; c ", что кажется неудачным. – dfrankow 12 August 2010 в 23:56
  • 2
    Или вы можете просто сказать, если (input.indexOf (& quot; & lt;) & gt; 0 || input.indexOf (& quot; & quot;) & gt; 0) return & quot ;; else return input; – Hossein Shahdoost 21 April 2013 в 12:49

Я знаю, что это старо, но я просто работал над проектом, который требовал от меня фильтрации HTML, и это сработало нормально:

noHTMLString.replaceAll("\\&.*?\\;", "");

вместо этого:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");
3
ответ дан DarthJDG 15 August 2018 в 17:44
поделиться

Принятый ответ не работал для меня в тестовом примере, который я указал: результатом «a & lt; b или b> c» является «ab или b> c».

Итак, я вместо этого использовался TagSoup. Вот выстрел, который работал для моего тестового примера (и нескольких других):

import java.io.IOException;
import java.io.StringReader;
import java.util.logging.Logger;

import org.ccil.cowan.tagsoup.Parser;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.Locator;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

/**
 * Take HTML and give back the text part while dropping the HTML tags.
 *
 * There is some risk that using TagSoup means we'll permute non-HTML text.
 * However, it seems to work the best so far in test cases.
 *
 * @author dan
 * @see <a href="http://home.ccil.org/~cowan/XML/tagsoup/">TagSoup</a> 
 */
public class Html2Text2 implements ContentHandler {
private StringBuffer sb;

public Html2Text2() {
}

public void parse(String str) throws IOException, SAXException {
    XMLReader reader = new Parser();
    reader.setContentHandler(this);
    sb = new StringBuffer();
    reader.parse(new InputSource(new StringReader(str)));
}

public String getText() {
    return sb.toString();
}

@Override
public void characters(char[] ch, int start, int length)
    throws SAXException {
    for (int idx = 0; idx < length; idx++) {
    sb.append(ch[idx+start]);
    }
}

@Override
public void ignorableWhitespace(char[] ch, int start, int length)
    throws SAXException {
    sb.append(ch);
}

// The methods below do not contribute to the text
@Override
public void endDocument() throws SAXException {
}

@Override
public void endElement(String uri, String localName, String qName)
    throws SAXException {
}

@Override
public void endPrefixMapping(String prefix) throws SAXException {
}


@Override
public void processingInstruction(String target, String data)
    throws SAXException {
}

@Override
public void setDocumentLocator(Locator locator) {
}

@Override
public void skippedEntity(String name) throws SAXException {
}

@Override
public void startDocument() throws SAXException {
}

@Override
public void startElement(String uri, String localName, String qName,
    Attributes atts) throws SAXException {
}

@Override
public void startPrefixMapping(String prefix, String uri)
    throws SAXException {
}
}
4
ответ дан dfrankow 15 August 2018 в 17:44
поделиться

Возможно, вы захотите заменить теги <br/> и </p> символами новой строки перед тем, как удалить HTML, чтобы он не стал неразборчивым, как предлагает Тим.

Единственный способ, я могу думать об удалении тегов HTML но оставляя не-HTML между угловыми скобками, будет проверяться на список тегов HTML . Что-то в этом направлении ...

replaceAll("\\<[\s]*tag[^>]*>","")

Затем HTML-декодирование специальных символов, таких как &amp;. Результат не следует считать дезинфицированным.

6
ответ дан foxy 15 August 2018 в 17:44
поделиться

В принятом ответе просто Jsoup.parse(html).text() есть 2 возможных вопроса (с JSoup 1.7.3):

  • Удаляет разрывы строк из текста
  • Он преобразует текст &lt;script&gt; в <script>

Если вы используете это для защиты от XSS, это немного раздражает. Вот мой лучший снимок в улучшенном решении, используя как JSoup, так и Apache StringEscapeUtils:

// breaks multi-level of escaping, preventing &amp;lt;script&amp;gt; to be rendered as <script>
String replace = input.replace("&amp;", "");
// decode any encoded html, preventing &lt;script&gt; to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);

Обратите внимание, что последний шаг заключается в том, что мне нужно использовать вывод как обычный текст. Если вам нужен только вывод HTML, вы можете его удалить.

И вот куча тестовых примеров (вход для вывода):

{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"&lt;script&gt;", ""},
{"&amp;lt;script&amp;gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}

Если вы найдете способ сделать это лучше, пожалуйста, дайте мне знать.

11
ответ дан George Garchagudashvili 15 August 2018 в 17:44
поделиться
  • 1
    Это провалится против чего-то вроде &#38;lt;script&#38;gt;alert('Evil script executed');&#38;lt;/script&#38;gt;. То же самое касается &#x26;. JSoup не конвертирует &lt;script&gt; into <script>, он делает это, потому что вы вызываете StringEscapeUtils.unescapeHtml после того, как JSoup очистит вход. – Guillaume Polet 26 February 2015 в 10:59

ex: classeString.replaceAll ("\ & lt; (/? [^ \>] +) \>", "\") .replaceAll ("\ s +", "") .trim ()

0
ответ дан Guilherme Oliveira 15 August 2018 в 17:44
поделиться
  • 1
    Хотя этот фрагмент кода может решить вопрос, , включая объяснение , действительно помогает улучшить качество вашего сообщения. Помните, что вы отвечаете на вопрос читателей в будущем, и эти люди могут не знать причин вашего предложения кода. Также попробуйте не толковать код с пояснительными комментариями, что уменьшает читаемость кода и объяснений! – Filnor 26 January 2018 в 13:29

Использовать Html.fromHtml

HTML Тэги

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

Согласно официальным документам Android любые теги в HTML будет отображаться как обобщенная строка String, которую ваша программа может затем пройти и заменить на настоящие строки .

Html.formHtml метод принимает Html.TagHandler и Html.ImageGetter as аргументы, а также текст для разбора.

Пример

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

Затем

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

Выход

Это обо мне текст, который пользователь может ввести в свой профиль

4
ответ дан IntelliJ Amiya 15 August 2018 в 17:44
поделиться
  • 1
    Отсутствие дополнительных утилит и выравнивание с Android Docs. +1 – davidbates 30 March 2016 в 04:17

Также очень просто использовать Jericho , и вы можете сохранить некоторое форматирование (например, разрывы строк и ссылки).

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());
18
ответ дан Kaitsu 15 August 2018 в 17:44
поделиться
  • 1
    Джерико смог разобрать & lt; br & gt; к разрыву линии. Jsoup и HTMLEditorKit не могли этого сделать. – homaxto 24 August 2011 в 15:49
  • 2
    Джерико очень способен выполнять эту работу, много использовал в собственных проектах. – Jerry Tian 24 May 2012 в 02:40
  • 3
    Джерико работал как шарм. Спасибо за предложение. Одно замечание: вам не нужно создавать сегмент всей строки. Источник расширяет сегмент, поэтому либо работает в конструкторе Renderer. – MrPlow 2 September 2015 в 20:35
  • 4
    Джерико сейчас немного устарел (последний релиз был 3,4 в конце 2015 года). Однако, если он все еще работает хорошо, он все равно работает хорошо! – Jonathan Hult 12 October 2017 в 20:22

Если вы пишете для Android, вы можете это сделать ...

android.text.Html.fromHtml(instruction).toString()
255
ответ дан Majid 15 August 2018 в 17:44
поделиться
  • 1
    Удивительный совет. :) Если вы показываете текст в TextView, вы также можете удалить .toString (), чтобы сохранить некоторое форматирование. – Lorne Laliberte 16 March 2012 в 05:40
  • 2
    Dont 'работает для пролетов и других веб-содержимого – Maverick 14 June 2014 в 08:23
  • 3
    @Branky Это я не пробовал ... принятый ответ работает как шарм – Maverick 7 August 2014 в 14:11
  • 4
    Это хорошо, но & lt; img & gt; бирки заменяются некоторыми причудливыми вещами. Я получил небольшие квадраты, где было изображение – Bibaswann Bandyopadhyay 14 October 2015 в 15:59
  • 5
    @BibaswannBandyopadhyay другой ответ помогает избавиться от этих символов – Vince 26 March 2016 в 17:30

Для этой цели также можно использовать Apache Tika . По умолчанию он сохраняет пробелы из разделенного html, что может быть желательно в определенных ситуациях:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
2
ответ дан Maksim Sorokin 15 August 2018 в 17:44
поделиться
  • 1
    Обратите внимание, что метод parse устарел в пользу Parse.parse(InputStream, ContentHandler, Metadata, ParseContext). – Jacob van Lingen 1 July 2015 в 09:05

HTML Escaping действительно сложно сделать правильно - я бы определенно предложил использовать библиотечный код для этого, так как он намного более тонкий, чем вы думаете. Проверьте Apache StringEscapeUtils для довольно хорошей библиотеки для обработки этого в Java.

12
ответ дан nico.ruti 15 August 2018 в 17:44
поделиться
  • 1
    Это то, что я ищу, но я хочу убрать HTML вместо того, чтобы ускользнуть от него. – Mason 27 October 2008 в 18:12
  • 2
    вы хотите удалить html или хотите преобразовать его в обычный текст? Удаление HTML из длинной строки с помощью br-тегов и HTML-объектов может привести к неразборчивости. – Tim Howland 27 October 2008 в 18:52
  • 3
    StringEscapeUtils.unescapeHtml не разделяет html – Erin Drummond 16 August 2012 в 04:04
  • 4
    Хорошая информация об утилитах, используемых для отмены, но не отвечающих на вопрос. – Alex 18 June 2014 в 06:33
  • 5
    Путаный ответ. Удаление! = Unescaping – Lluis Martinez 28 October 2014 в 15:41

Еще одним способом может быть использование класса com.google.gdata.util.common.html.HtmlToText, такого как

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

. Это не пуленепробиваемый код, хотя и когда я запускаю его в википедических записях Я также получаю информацию о стиле. Однако я считаю, что для небольших / простых заданий это было бы эффективно.

3
ответ дан rjha94 15 August 2018 в 17:44
поделиться

Ниже приведено немного более подробное обновление, чтобы попытаться обработать некоторое форматирование для разрывов и списков. В качестве руководства я использовал выход Amaya.

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
    private static final Logger log = Logger
            .getLogger(Logger.GLOBAL_LOGGER_NAME);

    private StringBuffer stringBuffer;

    private Stack<IndexType> indentStack;

    public static class IndexType {
        public String type;
        public int counter; // used for ordered lists

        public IndexType(String type) {
            this.type = type;
            counter = 0;
        }
    }

    public HTML2Text() {
        stringBuffer = new StringBuffer();
        indentStack = new Stack<IndexType>();
    }

    public static String convert(String html) {
        HTML2Text parser = new HTML2Text();
        Reader in = new StringReader(html);
        try {
            // the HTML to convert
            parser.parse(in);
        } catch (Exception e) {
            log.severe(e.getMessage());
        } finally {
            try {
                in.close();
            } catch (IOException ioe) {
                // this should never happen
            }
        }
        return parser.getText();
    }

    public void parse(Reader in) throws IOException {
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("StartTag:" + t.toString());
        if (t.toString().equals("p")) {
            if (stringBuffer.length() > 0
                    && !stringBuffer.substring(stringBuffer.length() - 1)
                            .equals("\n")) {
                newLine();
            }
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.push(new IndexType("ol"));
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.push(new IndexType("ul"));
            newLine();
        } else if (t.toString().equals("li")) {
            IndexType parent = indentStack.peek();
            if (parent.type.equals("ol")) {
                String numberString = "" + (++parent.counter) + ".";
                stringBuffer.append(numberString);
                for (int i = 0; i < (4 - numberString.length()); i++) {
                    stringBuffer.append(" ");
                }
            } else {
                stringBuffer.append("*   ");
            }
            indentStack.push(new IndexType("li"));
        } else if (t.toString().equals("dl")) {
            newLine();
        } else if (t.toString().equals("dt")) {
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.push(new IndexType("dd"));
            newLine();
        }
    }

    private void newLine() {
        stringBuffer.append("\n");
        for (int i = 0; i < indentStack.size(); i++) {
            stringBuffer.append("    ");
        }
    }

    public void handleEndTag(HTML.Tag t, int pos) {
        log.info("EndTag:" + t.toString());
        if (t.toString().equals("p")) {
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("li")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.pop();
            ;
        }
    }

    public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("SimpleTag:" + t.toString());
        if (t.toString().equals("br")) {
            newLine();
        }
    }

    public void handleText(char[] text, int pos) {
        log.info("Text:" + new String(text));
        stringBuffer.append(text);
    }

    public String getText() {
        return stringBuffer.toString();
    }

    public static void main(String args[]) {
        String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol>  <li>This</li>  <li>is</li>  <li>an</li>  <li>ordered</li>  <li>list    <p>with</p>    <ul>      <li>another</li>      <li>list        <dl>          <dt>This</dt>          <dt>is</dt>            <dd>sdasd</dd>            <dd>sdasda</dd>            <dd>asda              <p>aasdas</p>            </dd>            <dd>sdada</dd>          <dt>fsdfsdfsd</dt>        </dl>        <dl>          <dt>vbcvcvbcvb</dt>          <dt>cvbcvbc</dt>            <dd>vbcbcvbcvb</dd>          <dt>cvbcv</dt>          <dt></dt>        </dl>        <dl>          <dt></dt>        </dl></li>      <li>cool</li>    </ul>    <p>stuff</p>  </li>  <li>cool</li></ol><p></p></body></html>";
        System.out.println(convert(html));
    }
}
4
ответ дан Robert Harvey 15 August 2018 в 17:44
поделиться

Один из способов сохранить информацию в новой строке с JSoup - это предшествовать всем новым тегам строки с помощью некоторой фиктивной строки, выполнить JSoup и заменить фиктивную строку на «\n».

String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
    html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
0
ответ дан RobMen 15 August 2018 в 17:44
поделиться

Это должно работать -

использовать этот

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

и этот

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.
3
ответ дан Sandeep1699 15 August 2018 в 17:44
поделиться
  • 1
    Как правило, ответы гораздо полезнее, если они включают объяснение того, что должен делать код. – Peter 30 June 2017 в 11:47

Удалить теги HTML из строки. Где-то нам нужно разобрать некоторую строку, полученную некоторыми ответами типа Httpresponse с сервера.

Итак, нам нужно разобрать его.

Здесь я покажу, как удалить html-теги из строка.

    // sample text with tags

    string str = "<html><head>sdfkashf sdf</head><body>sdfasdf</body></html>";



    // regex which match tags

    System.Text.RegularExpressions.Regex rx = new System.Text.RegularExpressions.Regex("<[^>]*>");



    // replace all matches with empty strin

    str = rx.Replace(str, "");



    //now str contains string without html tags
0
ответ дан Satya Prakash 15 August 2018 в 17:44
поделиться
  • 1
    Откуда вы new System.Text.RegularExpressions.Regex();? – beresfordt 16 June 2015 в 14:41
  • 2
    @beresfordt этот ответ применяется к .NET, а не к Java, как было запрошено в вопросе – Erin Drummond 6 August 2015 в 20:25

Я думаю, что самый простой способ фильтрации тегов html:

private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");

public static String removeTags(String string) {
    if (string == null || string.length() == 0) {
        return string;
    }

    Matcher m = REMOVE_TAGS.matcher(string);
    return m.replaceAll("");
}
19
ответ дан Serge 15 August 2018 в 17:44
поделиться

Вот еще один вариант того, как заменить все (HTML-теги | HTML-объекты | Пустое пространство в содержимом HTML)

content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", "");, где content является строкой.

2
ответ дан silentsudo 15 August 2018 в 17:44
поделиться

В качестве альтернативы можно использовать HtmlCleaner :

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}
3
ответ дан Stephan 15 August 2018 в 17:44
поделиться
  • 1
    HtmlCleaner хорошо работает, поддерживает разрывы строк и имеет недавний выпуск (2.21 в мае 2017 года). – Jonathan Hult 12 October 2017 в 20:22

На Android попробуйте:

String result = Html.fromHtml(html).toString();
15
ответ дан stickfigure 15 August 2018 в 17:44
поделиться
  • 1
    Так оно и было! он удалил все встроенные html из текста :) – DritanX 15 May 2015 в 20:33
  • 2
    Вы всегда используете фрагменты кода для обычного кода. Фрагменты кода должны использоваться только для HTML или javascript или другого кода, который может быть запущен в браузере. Вы не можете запускать Java в браузере. В будущем используйте обычные кодовые блоки ... На этот раз я отредактирую ваш ответ и исправлю форматирование и т. Д., Но, пожалуйста, не делайте этого больше в будущем. Это не первый раз, когда я рассказал вам об этом ... – Xaver Kapeller 21 May 2015 в 14:09
  • 3
    @XaverKapeller благодарит человека, сделает это в следующий раз наверняка – Ameen Maheen 12 June 2015 в 04:22
  • 4
    @PaulCroarkin это библиотека внутри android sdk. android.text.Html – Ameen Maheen 17 June 2015 в 05:07
  • 5
    Потрясающие. Удалены все теги html. – user3144836 3 August 2015 в 01:22

Чтобы получить форматированный простой HTML-текст, вы можете сделать это:

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

Чтобы получить форматированное изменение обычного текста & lt; br / & gt; на\n и измените последнюю строку на:

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");
0
ответ дан surfealokesea 15 August 2018 в 17:44
поделиться
27
ответ дан CSchulz 5 September 2018 в 16:49
поделиться
27
ответ дан CSchulz 29 October 2018 в 00:55
поделиться
Другие вопросы по тегам:

Похожие вопросы: