Синтаксический анализатор HTML/XML для [закрытого] Java

Question

Синтаксический анализатор HTML/XML для [закрытого] Java

Какие синтаксические анализаторы HTML имеют следующие функции:

Быстро
Ориентированный на многопотоковое исполнение
Надежный и без ошибок
Синтаксические анализы HTML и XML
Обрабатывает ошибочный HTML
Имеет реализацию DOM
Поддержки HTML4, JavaScript и теги CSS
Относительно простой, объектно-ориентированный API

Какой синтаксический анализатор, Вы думаете, лучше?

Спасибо.

32

java html xml dom parsing

задан Dave Jarvis 22 June 2010 в 01:38

6 ответов

Другие вопросы по тегам:

java html xml dom parsing

Похожие вопросы:

score 1 · Answer 1

Я думаю, что HTML Cleaner это то, что вы ищу. См. Его объявление на тессе, чтобы увидеть, как это сравнивается с JTIDY, Tagsoup, Nekohtml.

score 1 · Answer 2

вы, вероятно, захотите взглянуть на то, чтобы сделать что-то вроде запуска Mozilla в безголовочном режиме. Вот ссылка для начала, я уверен, что вы можете использовать Google для получения дополнительной информации.

score 5 · Answer 3

анализатор HTML Validator.nu , определенно. Это реализация алгоритма синтаксического анализа HTML5, и Gecko находится в процессе замены собственного синтаксического анализатора HTML на C++ трансляцию этого.

score 1 · Answer 4

Ну:

Там не так много хороших парсеров HTML в Java, сколько вам нужно, но вот некоторые альтернативы: http://java-source.net/Open-source/html-parsers

Очень немногие из них поддерживают JavaScript. На самом деле, я думаю, вам придется сделать эту часть самостоятельно, используя Rhino ( http://www.mozilla.org/rhino/ ).

score 16 · Answer 5

Проверьте Web Warver . Это как библиотека, которую вы можете использовать, и инструмент извлечения данных, который звучит мне, это именно то, что вы хотите сделать. Вы создаете файлы сценариев XML, чтобы проинструктировать скребок, как извлечь необходимую информацию, и откуда. Предлагаемый GUI очень полезен для быстрого тестирования скриптов.

Проверьте страницу образцов проекта , чтобы увидеть, если это хорошо подходит для того, что вы пытаетесь сделать.

score 7 · Answer 6

Наиболее известными являются NekoHTML и JTidy.

NekoHTML основан на Xerces и предоставляет простой адаптируемый SAXParser, который реализует XMLReader JavaSE интерфейс.

JTidy более интригована в форматировании вашего html-кода в нечто XML-valid, но все же очень полезна в качестве парсера XML, при необходимости создавая DOM-дерево.

Вы можете посмотреть на этот список для других альтернатив.

Другим вариантом может быть использование абрикоса через jRuby.