Девять лет назад, когда я начал анализировать HTML и свободный текст с помощью Perl, я прочитал классический Data Munging with Perl ]. Кто-нибудь знает, планирует ли Дэвид обновить книгу, или есть ли аналогичные книги или веб-страницы с новыми модулями синтаксического анализа, такими как XML-Twig , Regexp-Grammars и т. Д., объяснены?
Я предполагаю, что за последние девять лет некоторые модули все еще так же хороши, как и были, некоторые обновлены, но с новыми интересными методами, а некоторые имеют более качественные замены. Например, остается ли Parse-RecDescent единственным вариантом для произвольного синтаксического анализа текста или будет ли Perl 6 под влиянием Regexp-Grammars его заменой во многих сценариях?
Мне было четыре года. лет без активного HTML, XML или интеллектуального анализа текстовых данных с помощью Perl, поэтому, вероятно, мой инструментарий в этой области немного устарел. Поэтому любые отзывы по поводу манипуляций с HTML и DOM, извлечения / проверки ссылок, веб-тестирования, такого как Mechanize, манипуляции с XML и произвольного синтаксического анализа текста, от людей, которые знакомы с текущими модулями CPAN в этой области, будут более чем приветствоваться.
Некоторые новые дополнения к моему набору инструментов: