Есть ли библиотека, подобная lxml или nokogiri для Явы? [закрытый]

9
задан Jonik 23 January 2010 в 00:10
поделиться

2 ответа

Есть Дюжина библиотеки Scraping Scraping написана в Java. Просто чтобы привести несколько:

  • Tagsououp - анализатор SAX-совместимый, написанный в Java, что вместо разборки хорошо сформированного или действительного XML, анализирует HTML, как это найден в Дикий: противный и грубый, хотя часто далеко от коротких. Tagsoup есть предназначен для людей, которые должны обрабатывать эти вещи, используя некоторые видимость рационального применения дизайн. Предоставляя интерфейс SAX, Это позволяет стандартным инструментам XML быть применяется к даже худшим HTML.
  • jericho HTML Parser - Jericho HTML Parser - простой, но мощный Java библиотека, позволяющая анализировать и Манипулирование частями HTML Документ, включая некоторые общие Серверные метки, при воспроизведении дословно любой неузнаваемый или недействительный HTML. Это также обеспечивает HTML высокого уровня Функции манипуляции формы. т ни событие, ни на основе дерева парсер, а скорее использует комбинацию простого текстового поиска, эффективный тег распознавание и кэш положения тега. Текст всего источника документа сначала загружен в память, а затем Только соответствующие сегменты искали для соответствующих символов каждого операция поиска.
  • HTML Cleaner - HTMLCleaner Reorders Отдельные элементы и производит хорошо сформированный XML от грязных HTML. Отсюда следует похожие правила, которые большинство веб-браузеров используют в порядке Создать модель объекта документа. А. Пользователь может предоставить пользовательский тег и правило Установите для фильтрации тегов и балансировки.
  • nekohtml - nekohtml - это простой HTML-сканер и балансировщик тегов, которые позволяет программистам приложений к анализировать документы HTML и получить доступ к Информация с использованием стандартного XML интерфейсы. Парсер может просканировать HTML файлы и «исправить» много общего ошибки, что человек (и компьютер) Авторы делают в написании HTML документы. Nekohtml добавляет пропавших недостаток родительские элементы; автоматически закрывается элементы с дополнительными конечными метками; и может обрабатывать несоответствующий встроенный элемент Теги.

И многие другие в инструменты соскабливания экрана HTML, написанные в Java . Но это IMO лучшее, что нужно иметь дело с любым видом контента (понять все виды дерьма), как я уже упоминал в это предыдущий ответ . Это может не быть проблемой для вас, хотя.

На всякий случай, возможно, проверьте нить Nokogiri Pure Java Status .

Обновление: был выпущен новый проект (2010-01-31), jsououp , который предлагает Selector-синтаксис для поиска элементов . Смотрите его веб-сайт для более подробной информации и / или Этот ответ от его автора.

7
ответ дан 3 November 2019 в 03:47
поделиться

Вы можете использовать HPricot через JRUBY. Смотри Это вопрос для более подробной информации об этом.

1
ответ дан 3 November 2019 в 03:47
поделиться
Другие вопросы по тегам:

Похожие вопросы: