Проанализируйте уродливый XML

IRC - многое помогает мне; Особенно играть в такие мелочи, как игры, где самые быстрые получают очки. Вы также можете попробовать «typepeed» в Linux. Если вам действительно нужно больше скорости, и вы думаете, что освоили технику, вы также можете рассмотреть возможность использования раскладки клавиатуры Dvorak ; Это поможет вам быстро печатать, но вам действительно нужно адаптироваться к нему.

6
задан John Saunders 11 January 2013 в 14:44
поделиться

6 ответов

Пакет HTML Agility Pack анализирует html, а не xhtml, и это довольно снисходительно. Модель объекта будет вам знакома, если вы использовали XmlDocument .

15
ответ дан 8 December 2019 в 12:22
поделиться

В зависимости от конкретных потребностей вы можете использовать HTML Tidy для очистки документа, а затем импортировать его с помощью объекта XMLDocument.

1
ответ дан 8 December 2019 в 12:22
поделиться

Возможно, вы захотите проверить ответ на этот вопрос .

В основном, где-то между портом beautifulsoup .NET и пакетом гибкости HTML есть способ.

2
ответ дан 8 December 2019 в 12:22
поделиться

Маловероятно, что вы сможете создать XmlDocument с таким уровнем искаженной структуры. XmlDocument (насколько мне известно) требует, чтобы содержимое xml соответствовало правильному синтаксису вложенности и закрытия.

Однако вы подозреваете, что вместо этого можете проанализировать это с помощью XmlReader. Он по-прежнему может генерировать исключения, если встречаются некоторые вопиющие ошибки, но, согласно документам MSDN, он может, по крайней мере, раскрыть местонахождение ошибок.

Если вы просто имеете дело с HTML, есть HTML Agility Пакет , который может пригодиться вам.

1
ответ дан 8 December 2019 в 12:22
поделиться

То, что вы пытаетесь сделать, очень сложно. HTML нельзя анализировать с помощью анализатора XML, поскольку XML является строгим, а HTML - нет. Если бы этот HTML был совместим с XHTML (HTML как XML), то синтаксический анализатор XML без проблем анализировал бы HTML.

Если вы действительно хотите использовать XML, вы можете проверить, существуют ли какие-либо преобразователи HTML в XHTML. синтаксический анализатор для HTML.

Другими словами, я еще не встречал синтаксического анализатора XML, который обрабатывает искаженный XML ... они не предназначены для приема свободной разметки, такой как HTML (тоже по уважительной причине :))

0
ответ дан 8 December 2019 в 12:22
поделиться

Невозможно загрузить искаженный XML в XmlDocument .

Ознакомьтесь с Html Agility Pack на CodePlex

0
ответ дан 8 December 2019 в 12:22
поделиться
Другие вопросы по тегам:

Похожие вопросы: