Я надеюсь загружать полный текст Википедии для своего проекта колледжа. Я должен записать своего собственного паука для загрузки этого или есть ли общедоступный набор данных Википедии, доступной онлайн?
Чтобы просто дать Вам некоторый обзор моего проекта, я хочу узнать интересные слова немногих статей, которыми я интересуюсь. Но найти эти интересные слова, я планирую применить tf/idf, чтобы вычислить частотность термина для каждого слова и выбрать тех с высокой частотой. Но вычислить tf, я должен знать общие случаи во всей Википедии.
Как это может быть сделано?
из википедии: http://en.wikipedia.org/wiki/Wikipedia_database
Википедия предлагает бесплатные копии всего доступного содержания для заинтересованных пользователей. Эти базы данных можно использовать для зеркального отображения, личного использования, неформального резервного копирования, автономного использования или запросов к базе данных (например, для Wikipedia: Maintenance). Весь текстовый контент лицензирован под несколькими лицензиями Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) и GNU Free Documentation License (GFDL). Изображения и другие файлы доступны на разных условиях, как указано на их страницах с описанием. Наши советы по соблюдению этих лицензий см. В Википедии: Авторские права.
Кажется, тебе тоже повезло. Из раздела дампов:
По состоянию на 12 марта 2010 г. последний полный дамп англоязычной Википедии можно найти по адресу http://download.wikimedia.org/enwiki/20100130/ Это первый полный дамп англоязычной Википедии, созданный с 2008 года. Обратите внимание, что более поздние дампы (например, дамп 20100312) являются неполными.
Таким образом, этим данным всего 9 дней :)
Учитывая размер дампа, вам, вероятно, будет лучше использовать слово частота на английском языке или использовать MediaWiki API для произвольного опроса страниц (или страниц, к которым обращаются чаще всего). Существуют фреймворки для создания ботов на основе этого API (на Ruby, C #, ...), которые могут вам помочь.