Текстовая загрузка Википедии

Question

Текстовая загрузка Википедии

Я надеюсь загружать полный текст Википедии для своего проекта колледжа. Я должен записать своего собственного паука для загрузки этого или есть ли общедоступный набор данных Википедии, доступной онлайн?

Чтобы просто дать Вам некоторый обзор моего проекта, я хочу узнать интересные слова немногих статей, которыми я интересуюсь. Но найти эти интересные слова, я планирую применить tf/idf, чтобы вычислить частотность термина для каждого слова и выбрать тех с высокой частотой. Но вычислить tf, я должен знать общие случаи во всей Википедии.

Как это может быть сделано?

22

text wikipedia web-crawler information-retrieval

задан CJBS 13 April 2017 в 22:04

4 ответа

См. http://en.wikipedia.org/wiki/Wikipedia_database

1

ответ дан 29 November 2019 в 04:40

http://en.wikipedia.org/wiki/Wikipedia_database#Latest_complete_dump_of_english_wikipedia

1

ответ дан 29 November 2019 в 04:40

Учитывая размер дампа, вам, вероятно, будет лучше использовать слово частота на английском языке или использовать MediaWiki API для произвольного опроса страниц (или страниц, к которым обращаются чаще всего). Существуют фреймворки для создания ботов на основе этого API (на Ruby, C #, ...), которые могут вам помочь.

4

ответ дан 29 November 2019 в 04:40

Другие вопросы по тегам:

text wikipedia web-crawler information-retrieval

Похожие вопросы:

score 25 · Accepted Answer

из википедии: http://en.wikipedia.org/wiki/Wikipedia_database

Википедия предлагает бесплатные копии всего доступного содержания для заинтересованных пользователей. Эти базы данных можно использовать для зеркального отображения, личного использования, неформального резервного копирования, автономного использования или запросов к базе данных (например, для Wikipedia: Maintenance). Весь текстовый контент лицензирован под несколькими лицензиями Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) и GNU Free Documentation License (GFDL). Изображения и другие файлы доступны на разных условиях, как указано на их страницах с описанием. Наши советы по соблюдению этих лицензий см. В Википедии: Авторские права.

Кажется, тебе тоже повезло. Из раздела дампов:

По состоянию на 12 марта 2010 г. последний полный дамп англоязычной Википедии можно найти по адресу http://download.wikimedia.org/enwiki/20100130/ Это первый полный дамп англоязычной Википедии, созданный с 2008 года. Обратите внимание, что более поздние дампы (например, дамп 20100312) являются неполными.

Таким образом, этим данным всего 9 дней :)