У меня есть два файла, XML и HTML, и мне нужно извлечь из них данные по определенным шаблонам.
Мой XML-файл довольно хорошо отформатирован, и я могу использовать readline для чтения строки и поиска данных между тегами.
if($line =~ /\<tag1\>$varvalue\<\/tag1\>/)`
Однако мой HTML имеет один из худших кодов, который я видел, и файл выглядит так:
<div class="theater">
<h2>
<a href="/showtimes/university-village-3" >**University Village 3**</a></h2>
<div class="address">
<i>**3323 South Hoover Street, Los Angeles CA 90007 | (213) 748-6321**</i>
</div>
</div>
<div class="mtitle">
<a href="/movie/dream-house-2011" title="Dream House" onmouseover="mB(event, 771204354);" >**Dream House**</a>
<span>**(PG-13 , 1 hr. 31 min.)**</span>
</div>
<div class="times">
**1:00 PM,**
</div>
Теперь из этого файла мне нужно выбрать данные, которые выделены жирным шрифтом.
Я могу использовать регулярное выражение Perl для поиска данных из этого файла.