Бесплатные Большие наборы данных для экспериментирования с Hadoop

Вы знаете, что какой-либо большой набор данных экспериментирует с Hadoop, который свободен/недорогой? Любые связанные указатели/ссылки ценятся.

Предпочтение:

  • По крайней мере один ГБ данных.

  • Производственные данные логов веб-сервера.

Немногие из них, которых я нашел до сих пор:

  1. Дамп Википедии

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Также мы можем запустить наш собственный поисковый робот для сбора данных из сайтов, например, Википедии? Любые указатели о том, как сделать это, ценятся также.

40
задан 3 revs, 3 users 88% 30 July 2019 в 18:21
поделиться

4 ответа

Несколько замечаний по вашему вопросу о сканировании и Википедии.

Вы связались с дампами данных википедии и можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.

У них есть страница: Работа с Википедией

Еще один источник данных, который нужно добавить в список:

  • ClueWeb09 - 1 миллиард веб-страниц, собранных с января по 9 февраля. Сжато 5 ТБ.

Использование поискового робота для генерации данных должно быть опубликовано в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.

11
ответ дан 27 November 2019 в 01:56
поделиться

Это не файл журнала, но, возможно, вы могли бы использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet. osm

CC-лицензия, около 160 ГБ (без упаковки)

Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World

6
ответ дан 27 November 2019 в 01:56
поделиться

Это коллекция из 189 наборов данных для машинного обучения (которое является одним из лучших приложений для hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

7
ответ дан 27 November 2019 в 01:56
поделиться

Один очевидный источник: дампы данных трилогии Stack Overflow . Они находятся в свободном доступе по лицензии Creative Commons.

10
ответ дан 27 November 2019 в 01:56
поделиться
Другие вопросы по тегам:

Похожие вопросы: