Я не знаю вашей конкретной потребности в этом, но если вы также используете .NET, не могли бы вы использовать Html Agility Pack ?
Выдержка:
Это библиотека .NET-кода, которая позволяет анализировать HTML-файлы вне Интернета. Синтаксический анализатор очень толерантен с искаженным HTML «реальным миром».
blockquote>
Кажется, что этот форк gpac имеет экспериментальную поддержку для этого. Также смотрите этот тикет - он содержит ссылку на скомпилированную версию gpac из этой ветки и отмечает, как ее использовать.