Есть ли способ разобрать недействительный HTML?

Question

Есть ли способ разобрать недействительный HTML?

Мне нужно разобрать недействительные файлы HTML, которые содержат несколько случайных элементов (например, BODY) в случайных строках по всему файлу. Я пытался разобрать его как XML, но безуспешно, так как этот файл имеет недопустимую структуру XML (множество неправильных атрибутов в случайных элементах по всему файлу). HtmlAgilityPack также не смог прочитать этот файл. Он читает файл только до первого неправильного элемента и ничего после него.

Вот небольшой пример такого файла:

<HTML>
<HEAD>
    <TITLE>My title</TITLE>
</HEAD>
<BODY leftmargin=9 topmargin=7 >
    <TABLE>
        <TR>
            <TD>Test</TD>
        </TR>
        <TR>
            <TD>Test</TD>
            <TD>Test<TD>
        </TR>
            <BODY> <-- This is the point where HtmlAgilityPack is stuck --!>
                <TR>
                    <TD>Test</TD>
                    <TD>Test</TD>
                </TR>
                <TR>
            </BODY>
        <TR>
        <TD><FONT>Test</FONT></TD>
        </TR>
    </TABLE>
</BODY>

Я пытаюсь разобрать информацию из этой таблицы.

6

c# .net xml

задан Jcf 10 October 2011 в 12:51

0 ответов

Другие вопросы по тегам:

c# .net xml

Есть ли способ разобрать недействительный HTML?

0 ответов

Похожие вопросы: