Вывод шаблонов из набора строк

Я индексирую набор веб-сайтов с очень большим количеством страниц (десятки миллионов), созданных из небольшого количества шаблонов. Я ищу алгоритм для изучения шаблонов, из которых были созданы страницы, и сопоставления шаблонов со страницами, чтобы мне нужно было хранить только переменную часть и ссылку на шаблон для каждой выбранной страницы.

Алгоритм не обязательно должен обеспечивать максимально возможное сжатие, но мы надеемся, что он станет лучше, поскольку он видит больше страниц и должен вести себя изящно при столкновении со страницей, созданной с использованием ранее невидимого шаблона.

Я был бы очень признателен за любые ссылки к литературе или существующим библиотекам.

Я мог бы запустить алгоритм сжатия общего назначения для пакетов страниц. Причина, по которой я не хочу этого делать, заключается в том, что интересующие меня данные будут находиться в переменной части страниц, и поэтому шаблонный подход позволил бы мне извлечь их без распаковки. Я хочу, чтобы при необходимости можно было воссоздать всю страницу как для обеспечения возможности воспроизведения в будущем, так и для защиты от ошибок в моей программе парсинга.

9
задан Jyotirmoy Bhattacharya 9 June 2011 в 19:18
поделиться