Как я программно осматриваю документ HTML

У меня есть база данных, полная маленьких документов HTML, и я должен программно вставить несколько в, скажем, документ в формате PDF с iText или документ Word с Aspose. Слова. Я должен сохранить любое форматирование в рамках документов HTML (в причине, соблюдение <b> теги является необходимостью, CSS как <стиль промежутка =, "вздор"> является хорошим, чтобы).

И iText и Aspose работают (примерно) вдоль строк:

Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

Поэтому (я думаю), мне нужен некоторый синтаксический анализатор HTML, который будет, я могу осмотреть для строк и стилей для вставки в мой документ.

Кто-либо может предложить хорошую библиотеку или разумный подход к этой проблеме? Платформа является Java

7
задан Cœur 12 November 2019 в 02:49
поделиться