Бесплатные Большие наборы данных для экспериментирования с Hadoop

Question

Бесплатные Большие наборы данных для экспериментирования с Hadoop

Вы знаете, что какой-либо большой набор данных экспериментирует с Hadoop, который свободен/недорогой? Любые связанные указатели/ссылки ценятся.

Предпочтение:

По крайней мере один ГБ данных.
Производственные данные логов веб-сервера.

Немногие из них, которых я нашел до сих пор:

Также мы можем запустить наш собственный поисковый робот для сбора данных из сайтов, например, Википедии? Любые указатели о том, как сделать это, ценятся также.

40

resources hadoop opendata

задан 3 revs, 3 users 88% 30 July 2019 в 18:21

4 ответа

Это не файл журнала, но, возможно, вы могли бы использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet. osm

CC-лицензия, около 160 ГБ (без упаковки)

Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World

6

ответ дан 27 November 2019 в 01:56

Это коллекция из 189 наборов данных для машинного обучения (которое является одним из лучших приложений для hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

7

ответ дан 27 November 2019 в 01:56

Один очевидный источник: дампы данных трилогии Stack Overflow . Они находятся в свободном доступе по лицензии Creative Commons.

10

ответ дан 27 November 2019 в 01:56

Другие вопросы по тегам:

resources hadoop opendata

Похожие вопросы:

score 11 · Accepted Answer

Несколько замечаний по вашему вопросу о сканировании и Википедии.

Вы связались с дампами данных википедии и можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.

У них есть страница: Работа с Википедией

Еще один источник данных, который нужно добавить в список:

ClueWeb09 - 1 миллиард веб-страниц, собранных с января по 9 февраля. Сжато 5 ТБ.

Использование поискового робота для генерации данных должно быть опубликовано в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.