Вы знаете, что какой-либо большой набор данных экспериментирует с Hadoop, который свободен/недорогой? Любые связанные указатели/ссылки ценятся.
Предпочтение:
По крайней мере один ГБ данных.
Производственные данные логов веб-сервера.
Немногие из них, которых я нашел до сих пор:
Также мы можем запустить наш собственный поисковый робот для сбора данных из сайтов, например, Википедии? Любые указатели о том, как сделать это, ценятся также.
Несколько замечаний по вашему вопросу о сканировании и Википедии.
Вы связались с дампами данных википедии и можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.
У них есть страница: Работа с Википедией
Еще один источник данных, который нужно добавить в список:
Использование поискового робота для генерации данных должно быть опубликовано в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.
Это не файл журнала, но, возможно, вы могли бы использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet. osm
CC-лицензия, около 160 ГБ (без упаковки)
Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World
Это коллекция из 189 наборов данных для машинного обучения (которое является одним из лучших приложений для hadoop g ): http://archive.ics.uci.edu/ml/datasets.html
Один очевидный источник: дампы данных трилогии Stack Overflow . Они находятся в свободном доступе по лицензии Creative Commons.