Бесплатные Большие наборы данных для экспериментирования с Hadoop

Вы знаете, что какой-либо большой набор данных экспериментирует с Hadoop, который свободен/недорогой? Любые связанные указатели/ссылки ценятся.

Предпочтение:

  • По крайней мере один ГБ данных.

  • Производственные данные логов веб-сервера.

Немногие из них, которых я нашел до сих пор:

  1. Дамп Википедии

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Также мы можем запустить наш собственный поисковый робот для сбора данных из сайтов, например, Википедии? Любые указатели о том, как сделать это, ценятся также.

40
задан 3 revs, 3 users 88% 30 July 2019 в 18:21
поделиться