Какие синтаксические анализаторы HTML имеют следующие функции:
Какой синтаксический анализатор, Вы думаете, лучше?
Спасибо.
Я думаю, что HTML Cleaner это то, что вы ищу. См. Его объявление на тессе, чтобы увидеть, как это сравнивается с JTIDY, Tagsoup, Nekohtml.
вы, вероятно, захотите взглянуть на то, чтобы сделать что-то вроде запуска Mozilla в безголовочном режиме. Вот ссылка для начала, я уверен, что вы можете использовать Google для получения дополнительной информации.
анализатор HTML Validator.nu , определенно. Это реализация алгоритма синтаксического анализа HTML5, и Gecko находится в процессе замены собственного синтаксического анализатора HTML на C++ трансляцию этого.
Ну:
Там не так много хороших парсеров HTML в Java, сколько вам нужно, но вот некоторые альтернативы: http://java-source.net/Open-source/html-parsers
Очень немногие из них поддерживают JavaScript. На самом деле, я думаю, вам придется сделать эту часть самостоятельно, используя Rhino ( http://www.mozilla.org/rhino/ ).
Проверьте Web Warver . Это как библиотека, которую вы можете использовать, и инструмент извлечения данных, который звучит мне, это именно то, что вы хотите сделать. Вы создаете файлы сценариев XML, чтобы проинструктировать скребок, как извлечь необходимую информацию, и откуда. Предлагаемый GUI очень полезен для быстрого тестирования скриптов.
Проверьте страницу образцов проекта , чтобы увидеть, если это хорошо подходит для того, что вы пытаетесь сделать.
Наиболее известными являются NekoHTML и JTidy.
NekoHTML основан на Xerces и предоставляет простой адаптируемый SAXParser, который реализует XMLReader JavaSE интерфейс.
JTidy более интригована в форматировании вашего html-кода в нечто XML-valid, но все же очень полезна в качестве парсера XML, при необходимости создавая DOM-дерево.
Вы можете посмотреть на этот список для других альтернатив.
Другим вариантом может быть использование абрикоса через jRuby.