Я ищу Твиттер или другой набор данных сайтов социальных сетей для моего проекта. У меня в настоящее время есть набор данных Твиттера CAW 2.0, но он только содержит твиты пользователей. Я хочу данные, которые показывают число друзей, подписчика и такого.
Это не должен быть Твиттер, но я предпочел бы Твиттер или Facebook. Я уже попробовал infochimps, но по-видимому файл больше не загружаем для Твиттера.
Может кто-то давать мне хорошие веб-сайты для нахождения этого вида набора данных. Я собираюсь подать набор данных к hadoop.
Попробуйте использовать следующие три набора данных:
Содержит около 97 миллионов твитов:
ed note : набор данных, ранее связанный выше, больше недоступен из-за запроса Twitter на его удаление.
Содержит пользовательский график из 47 миллионов пользователей:
http://an.kaist.ac.kr/traces/WWW2010.html
Следующий набор данных содержит сеть, а также твиты, однако данные были собраны снежным комом выборка или что-то, следовательно сеть друзей не едина. Он содержит около 10 миллионов твитов, которые вы можете отправить исследователю по электронной почте, чтобы получить еще больше данных.
http://www.public.asu.edu/~mdechoud/datasets.html
Хотя посмотрите лицензию, под которой распространяются данные.
Надеюсь, это поможет, Также можете сказать, какие работы планируются с этим набором данных? У меня есть несколько скриптов hadoop / pig для использования с набором данных
100 миллионов страниц были извлечены из facebook : http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
Я не знаю, что они содержат, но вы могли бы взглянуть, кажется, это легко найти на торрент-сайтах.
Вы также можете использовать API facebook, но если вы хотите получить достаточно большой набор данных, вам придется попросить у facebook права на доступ к нему. Он содержит ссылки на друзей, лайки, группы, ...