Получение статических HTML-файлов из XML-дампа Википедии

Question

Получение статических HTML-файлов из XML-дампа Википедии

Я хотел бы иметь возможность получать относительно актуальные статические HTML-файлы из огромной (даже в сжатом виде) английской Википедии XML-файл дампа enwiki-latest-pages-articles.xml.bz2Я скачал со страницы дампа WikiMedia. Кажется, что доступно довольно много инструментов, хотя документации по ним довольно мало, поэтому я не знаю, что делает большинство из них и соответствуют ли они последним дампам. (Я неплохо разбираюсь в создании поисковых роботов, которые могут сканировать относительно небольшие HTML-страницы/файлы, хотя я ужасно плохо работаю с SQL и XML, и я не ожидаю, что буду хорош ни с тем, ни с другим, по крайней мере, еще год.) Я хочу иметь возможность сканировать HTML-файлы, полученные из дампа в автономном режиме, не прибегая к сканированию Википедии онлайн.

Кто-нибудь знает хороший инструмент для получения статических файлов HTML из недавних XML-дампов Википедии?

9

screen-scraping web-crawler wikipedia xml-parsing mediawiki

задан Brian Schmitz 23 May 2012 в 05:10

0 ответов

Другие вопросы по тегам:

screen-scraping web-crawler wikipedia xml-parsing mediawiki

Получение статических HTML-файлов из XML-дампа Википедии

0 ответов

Похожие вопросы: