На стороне Talend вы можете использовать tSampleRow для обработки только ограниченного количества строк, которые были извлечены. Например, вы можете использовать диапазон номеров строк для обработки строк только 1-50.
NekoHTML, TagSoup и JTidy позволят Вам анализировать HTML и затем обрабатывать с инструментами XML, как XPath.
Я попробовал Синтаксический анализатор HTML, который очень прост.
Необходимо ли сделать полный синтаксический анализ HTML? Если Вы просто ищете определенные значения в содержании (определенный tag/param), то простое регулярное выражение могло бы быть достаточно и могло очень хорошо быть быстрее.