HTML truncator в Java

Действительно ли там кто-либо - утилита (или демонстрационный исходный код), который усекает HTML (для предварительного просмотра) в Java? Я хочу сделать усечение на сервере а не на клиенте.

Я использую HTMLUnit для парсинга HTML.

ОБНОВЛЕНИЕ:
Я хочу смочь предварительно просмотреть HTML, таким образом, truncator поддержал бы структуру HTML при снятии элементов после желаемой продолжительности вывода.

5
задан smahesh 23 March 2010 в 16:06
поделиться

2 ответа

Я думаю, вам нужно будет написать свой собственный синтаксический анализатор XML, чтобы выполнить это . Вытяните основной узел, добавьте узлы до тех пор, пока двоичная длина не станет <некоторого фиксированного размера, а затем перестройте документ. Если HTMLUnit не создает семантический XHTML, я бы рекомендовал tagsoup .

Если вам нужен синтаксический анализатор / обработчик XML, я бы рекомендовал XOM .

1
ответ дан 14 December 2019 в 19:09
поделиться

Я могу предложить вам сценарий Python, который я написал для этого: http://www.ellipsix.net/ext-tmp/summarize.txt . К сожалению, у меня нет версии для Java, но не стесняйтесь переводить ее самостоятельно и при желании изменять в соответствии с вашими потребностями. Это не очень сложно, просто то, что я собрал вместе для своего веб-сайта, но я использую его чуть больше года, и в целом, похоже, он работает очень хорошо.

Если вам нужно что-то надежное, синтаксический анализатор XML (или SGML) почти наверняка будет лучшей идеей, чем то, что сделал я.

0
ответ дан 14 December 2019 в 19:09
поделиться
Другие вопросы по тегам:

Похожие вопросы: