Названия статьи Wikipedia (никакое содержание) [закрытый]

6
задан Vadim Kotov 17 August 2017 в 13:58
поделиться

2 ответа

Посмотрите эта страница здесь, в Википедии - есть возможность просто скачать архив с названиями статей. Вот фактический путь к странице загрузки :

Редактировать:

Вы можете заметить неанглоязычные заголовки, появляющиеся в списке (и с некоторой ненормативной лексикой - сообщаем), содержащемся в enwiki-latest-all-title-in-ns0.gz . Это связано с тем, что по умолчанию большинство людей создают контент на главной англоязычной вики (код языка en ). Если вы исследуете дамп на других языках, вы увидите, что там есть разные наборы статей.

На главной странице загрузки есть ссылки на возможность использования Wikipedia API для выполнения некоторых типов запросов в Википедии, но я не уверен, что это решит вашу проблему (таксономия страницы, похоже, не предоставляют простого способа отличить «английский» контент от «английского контента вики»).

14
ответ дан 8 December 2019 в 17:19
поделиться

Мне неизвестен какой-либо центральный список статей, но если вам просто нужно их большое количество, а не полный список (учитывая, что любой полный список в любом случае будет устаревшим), вы, вероятно, можете скомпонуйте что-нибудь вместе с wget, чтобы рекурсивно переходить по ссылкам в Википедии с главной страницы и сохранять полученные URL-адреса.

0
ответ дан 8 December 2019 в 17:19
поделиться
Другие вопросы по тегам:

Похожие вопросы: