Синтаксический анализатор HTML/XML для [закрытого] Java

Какие синтаксические анализаторы HTML имеют следующие функции:

  • Быстро
  • Ориентированный на многопотоковое исполнение
  • Надежный и без ошибок
  • Синтаксические анализы HTML и XML
  • Обрабатывает ошибочный HTML
  • Имеет реализацию DOM
  • Поддержки HTML4, JavaScript и теги CSS
  • Относительно простой, объектно-ориентированный API

Какой синтаксический анализатор, Вы думаете, лучше?

Спасибо.

32
задан Dave Jarvis 22 June 2010 в 01:38
поделиться

6 ответов

Я думаю, что HTML Cleaner это то, что вы ищу. См. Его объявление на тессе, чтобы увидеть, как это сравнивается с JTIDY, Tagsoup, Nekohtml.

1
ответ дан 27 November 2019 в 21:08
поделиться

вы, вероятно, захотите взглянуть на то, чтобы сделать что-то вроде запуска Mozilla в безголовочном режиме. Вот ссылка для начала, я уверен, что вы можете использовать Google для получения дополнительной информации.

1
ответ дан 27 November 2019 в 21:08
поделиться

анализатор HTML Validator.nu , определенно. Это реализация алгоритма синтаксического анализа HTML5, и Gecko находится в процессе замены собственного синтаксического анализатора HTML на C++ трансляцию этого.

5
ответ дан 27 November 2019 в 21:08
поделиться

Ну:

Там не так много хороших парсеров HTML в Java, сколько вам нужно, но вот некоторые альтернативы: http://java-source.net/Open-source/html-parsers

Очень немногие из них поддерживают JavaScript. На самом деле, я думаю, вам придется сделать эту часть самостоятельно, используя Rhino ( http://www.mozilla.org/rhino/ ).

1
ответ дан 27 November 2019 в 21:08
поделиться

Проверьте Web Warver . Это как библиотека, которую вы можете использовать, и инструмент извлечения данных, который звучит мне, это именно то, что вы хотите сделать. Вы создаете файлы сценариев XML, чтобы проинструктировать скребок, как извлечь необходимую информацию, и откуда. Предлагаемый GUI очень полезен для быстрого тестирования скриптов.

Проверьте страницу образцов проекта , чтобы увидеть, если это хорошо подходит для того, что вы пытаетесь сделать.

16
ответ дан 27 November 2019 в 21:08
поделиться

Наиболее известными являются NekoHTML и JTidy.

NekoHTML основан на Xerces и предоставляет простой адаптируемый SAXParser, который реализует XMLReader JavaSE интерфейс.

JTidy более интригована в форматировании вашего html-кода в нечто XML-valid, но все же очень полезна в качестве парсера XML, при необходимости создавая DOM-дерево.

Вы можете посмотреть на этот список для других альтернатив.

Другим вариантом может быть использование абрикоса через jRuby.

7
ответ дан 27 November 2019 в 21:08
поделиться
Другие вопросы по тегам:

Похожие вопросы: