Как я могу получить полную историю изменений для статьи о Википедии?

Я хотел бы способ загрузить содержание каждой страницы в истории популярной статьи о Википедии. Другими словами, я хочу получить полный контент каждого редактирования для единственной статьи. Как я пошел бы о выполнении этого?

Есть ли простой способ сделать это использование API Википедии. Я смотрел и ничто не нашел высунутым как простое решение. Я также изучил сценарии на странице PyWikipedia Bot (http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813) и не нашел ничего, что было полезно. Некоторый простой способ сделать это в Python или Java было бы лучшим, но я открыт для любого простого решения, которое получит меня данные.

1
задан Nas Banov 26 July 2010 в 05:05
поделиться

2 ответа

Для этого есть несколько вариантов. Вы можете использовать специальную страницу Special:Export для получения XML-потока истории страниц. Или вы можете использовать API, расположенный по адресу /w/api.php. Используйте action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|content и т.д. для получения истории. Pywikipedia предоставляет интерфейс для этого, но я не знаю наизусть, как его вызвать. Альтернативная библиотека для Python, mwclient, также обеспечивает это, через site.pages[page_title].revisions()

2
ответ дан 2 September 2019 в 22:46
поделиться

Ну, одним из решений является разбор XML-дампа Википедии.

Просто подумал, что надо это выложить.

Если вам нужна только одна страница, это излишество. Но если вам не нужна самая свежая информация, использование XML будет иметь то преимущество, что это будет одноразовая загрузка вместо многократных обращений к сети.

0
ответ дан 2 September 2019 в 22:46
поделиться
Другие вопросы по тегам:

Похожие вопросы: