Какой Синтаксический анализатор HTML является лучшим? [закрытый]

Question

Какой Синтаксический анализатор HTML является лучшим? [закрытый]

Я кодирую много синтаксических анализаторов. Вплоть до сих пор я использовал HtmlUnit бездисплейный браузер для автоматизации браузера и парсинга.

Теперь, я хочу разделить обоих задачи.

Поскольку 80% моей работы включают просто парсинг, я хочу использовать синтаксический анализатор светового сигнала HTML, потому что это занимает время в HtmlUnit, чтобы сначала загрузить страницу, затем получить источник и затем проанализировать его.

Я хочу знать, какой синтаксический анализатор HTML является лучшим. Синтаксический анализатор был бы лучше, если это близко к синтаксическому анализатору HtmlUnit.

Править:

Лучшим я хочу, по крайней мере, следующие функции:

Скорость
Простота для определения местоположения любого HtmlElement его "идентификатором" или "именем" или "типом тега".

Для меня было бы хорошо, если это не чистит грязный HTML-код. Я не должен чистить источник HTML. Мне просто нужен самый легкий способ преодолеть HtmlElements и данные урожая от них.

186

java html parsing html-parsing web-scraping

задан Tiny 22 May 2014 в 07:17

3 ответа

Ну, поскольку HTML для ссылки находится в вашей БД, вы можете просто вывести HTML к буквальному управлению.

<asp:TemplateField HeaderText="myLink" SortExpression="myLink">
    <ItemTemplate>
        <asp:Literal ID="litHyperLink" runat="server" Text='<%# Bind("myLink", "{0}") %>' />
    </ItemTemplate>
</asp:TemplateField>

Это должно сделать вашу ссылку в виде Raw Text, позволяющий браузеру сделать его как ссылку, которую вы ожидаете.

-121--2129852-

Я предлагаю Парсер Validator.nu , основанный на алгоритме обшивки HTML5. Это анализатор, используемый в Mozilla с 2010-05-03

9

ответ дан 23 November 2019 в 05:49

Лучшее, что я видел до сих пор, это HTMLCleaner :

HTMLCleaner - это открытый источник HTML-анализатора, написанный в Java. HTML найдено в Интернете, обычно грязно, плохо образовавшись и не подходит для дальнейшей обработки. Для любого серьезного потребления таких документов необходимо сначала очистить беспорядок и привести заказ к тегам, атрибутам и обычным тексту. Для данного HTML-документа HTMLCleaner переносит отдельные элементы и производит хорошо сформированную XML. По умолчанию следует подобные правила, которые используют большинство веб-браузеров, чтобы создать модель объекта документа. Тем не менее, пользователь может предоставить пользовательский тег и правило, установленный для фильтрации тегов и балансировки.

С HTMLCleaner вы можете найти любой элемент, используя XPath.

Для других анализаторов HTML см. Этот вопрос .

32

ответ дан 23 November 2019 в 05:49

Другие вопросы по тегам:

java html parsing html-parsing web-scraping

Какой Синтаксический анализатор HTML является лучшим? [закрытый]

3 ответа

Похожие вопросы: