Как заставить pQuery работать со слегка искаженным HTML?

pQuery - это практический перенос фреймворка jQuery JavaScript на Perl, который можно использовать для очистки экрана.

pQuery весьма чувствителен к искаженному HTML. Рассмотрим следующий пример:

use pQuery;

my $html_malformed = "foobar>";
my $page = pQuery($html_malformed);
my $title = $page->find("title");
print "The title is: ", $title->html, "\n";

pQuery не может найти тег заголовка в приведенном выше примере из-за двойного « >> » в искаженном HTML.

Чтобы мои приложения на основе pQuery были более устойчивыми к искаженному HTML, мне нужно предварительно обработать HTML, очистив его перед передачей в pQuery.

Начиная с приведенного выше фрагмента кода, каков наиболее надежный способ очистки HTML на чистом Perl для его синтаксического анализа: возможно с помощью pQuery?

5
задан knorv 9 October 2010 в 19:54
поделиться