C # версия HTML Tidy?

Я просто ищу действительно простой способ очистить некоторый HTML (возможно, со встроенным кодом JavaScript) . Я пробовал два разных HTML Tidy .NET-портов, и оба выдают исключения ...

Извините, под «чистым» я подразумеваю «отступ». HTML вообще не искажен. Это XHTML строгий.


Я наконец получил кое-что, работающее с SGML , но это действительно самый нелепый кусок кода, когда-либо использовавший отступы в HTML.

private static string FormatHtml(string input)
{
    var sgml = new SgmlReader {DocType = "HTML", InputStream = new StringReader(input)};
    using (var sw = new StringWriter())
    using (var xw = new XmlTextWriter(sw) { Indentation = 2, Formatting = Formatting.Indented })
    {
        sgml.Read();
        while (!sgml.EOF)
            xw.WriteNode(sgml, true);
    }
    return sw.ToString();
}

9
задан Peter Mortensen 27 January 2015 в 16:32
поделиться