Мне нужно разобрать недействительные файлы HTML, которые содержат несколько случайных элементов (например, BODY) в случайных строках по всему файлу. Я пытался разобрать его как XML, но безуспешно, так как этот файл имеет недопустимую структуру XML (множество неправильных атрибутов в случайных элементах по всему файлу). HtmlAgilityPack также не смог прочитать этот файл. Он читает файл только до первого неправильного элемента и ничего после него.
Вот небольшой пример такого файла:
<HTML>
<HEAD>
<TITLE>My title</TITLE>
</HEAD>
<BODY leftmargin=9 topmargin=7 >
<TABLE>
<TR>
<TD>Test</TD>
</TR>
<TR>
<TD>Test</TD>
<TD>Test<TD>
</TR>
<BODY> <-- This is the point where HtmlAgilityPack is stuck --!>
<TR>
<TD>Test</TD>
<TD>Test</TD>
</TR>
<TR>
</BODY>
<TR>
<TD><FONT>Test</FONT></TD>
</TR>
</TABLE>
</BODY>
Я пытаюсь разобрать информацию из этой таблицы.