Я работаю над плагином браузера для Firefox, и я хотел бы смочь сделать некоторое автоматизированное тестирование, чтобы удостовериться, что это обрабатывает множество различных функций HTML/JavaScript правильно. Кто-либо знает о хорошем загружаемом корпусе страниц HTML и/или JavaScript, которые могли использоваться для этого типа тестирования?
Dotbot публикует торрент-файл с 14 ГБ HTML, сохраненный в 2009 году.
Вы имеете в виду такую страницу: http://acid3.acidtests.org/ ?
Этот набор тестов ECMAScript 5 тестирует (почти?) Все функции JavaScript текущего стандарта. Не тестируются только специфические для браузера функции.
Проект WebKit использует SunSpider, который имеет тесты, основанные на "реальных" шаблонах проектирования.
Набор тестов HTML Яна Хиксона может содержать что-то в том же духе, что вы ищете.
Я не знаю упакованного, готового к работе корпуса документов HTML / JavaScript (хотя похоже, что это делают некоторые другие SO). Если бы я был в вашей ситуации, я бы построил свой собственный корпус (вы буду знать, что он актуален, и вы будете точно знать, с чем имеете дело).
Чтобы создать свой собственный, вы можете поймать один из сканеров с открытым исходным кодом или просто рекурсивно использовать wget :
wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log
Хотите расширить вышеперечисленное? Создайте сценарий для чего-то, что захватывает список n первых сайтов от Google, и вставьте эти URL-адреса в указанную выше команду wget.