Что делают библиотеки парсинга HTML Вы рекомендуете в [закрытом] Java

На стороне Talend вы можете использовать tSampleRow для обработки только ограниченного количества строк, которые были извлечены. Например, вы можете использовать диапазон номеров строк для обработки строк только 1-50.

12
задан Charles Stewart 3 January 2010 в 08:29
поделиться

3 ответа

NekoHTML, TagSoup и JTidy позволят Вам анализировать HTML и затем обрабатывать с инструментами XML, как XPath.

12
ответ дан 2 December 2019 в 18:23
поделиться

Я попробовал Синтаксический анализатор HTML, который очень прост.

7
ответ дан 2 December 2019 в 18:23
поделиться

Необходимо ли сделать полный синтаксический анализ HTML? Если Вы просто ищете определенные значения в содержании (определенный tag/param), то простое регулярное выражение могло бы быть достаточно и могло очень хорошо быть быстрее.

1
ответ дан 2 December 2019 в 18:23
поделиться
Другие вопросы по тегам:

Похожие вопросы: