Как я программно осматриваю документ HTML

У меня есть база данных, полная маленьких документов HTML, и я должен программно вставить несколько в, скажем, документ в формате PDF с iText или документ Word с Aspose. Слова. Я должен сохранить любое форматирование в рамках документов HTML (в причине, соблюдение <b> теги является необходимостью, CSS как <стиль промежутка =, "вздор"> является хорошим, чтобы).

И iText и Aspose работают (примерно) вдоль строк:

Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

Поэтому (я думаю), мне нужен некоторый синтаксический анализатор HTML, который будет, я могу осмотреть для строк и стилей для вставки в мой документ.

Кто-либо может предложить хорошую библиотеку или разумный подход к этой проблеме? Платформа является Java

7
задан Cœur 12 November 2019 в 02:49
поделиться

5 ответов

HTMLparser является хорошим синтаксическим анализатором HTML.

Я использовал это для парсинга HTML на одном из моих проектов.

Можно записать собственные фильтры для парсинга HTML для того, что Вы хотите, таким образом, <br> тег не должно быть трудно проанализировать

Эй может проанализировать CSS с помощью CssSelectorNodeFilter

2
ответ дан 7 December 2019 в 16:47
поделиться

Если HTML является "правильно построенным XML" (XHTML), почему бы не использовать синтаксический анализатор XML (такой как Xerces) и затем осмотреть программно дерево DOM.

1
ответ дан 7 December 2019 в 16:47
поделиться

Adobe Acrobat Pro позволяет Вам захватывать сайты через HTTP и делает превосходное задание сохранения стиля и расположения. Я не использовал его от аспекта API, но это может стоить изучить.

0
ответ дан 7 December 2019 в 16:47
поделиться

Вы, вероятно, были бы более обеспеченным получением компонента, который идет непосредственно от HTML до PDF или Word, затем чтобы попытаться проанализировать документ HTML и копировать форматирование себя на основе HTML. Если Вы хотите преобразовать HTML в PDF, и Вы используете .NET, Winnovative предоставляет хорошее решение.

0
ответ дан 7 December 2019 в 16:47
поделиться

Проверьте летающую тарелку xhtml рендерер - они представляют правильно построенные файлы XHTML к PDF и позволяют Вам управлять выводом с помощью CSS.

0
ответ дан 7 December 2019 в 16:47
поделиться
Другие вопросы по тегам:

Похожие вопросы: