Я хотел бы любой совет относительно того, как создать и визуализировать карту ссылки между блогами так для отражения "социальной сети" между ними.
Вот то, как я думаю о выполнении его:
Я предполагаю, что, чтобы сделать это в R, можно было бы использовать RCurl/XML (Спасибо Shane для Вашего ответа здесь), объединенный с чем-то как igraph
.
Но так как у меня нет опыта или с них, есть ли кто-то здесь, который мог бы быть готов исправить меня, если бы я пропустил какой-либо важный шаг, или присоедините какой-либо полезный отрывок кода для разрешения этой задачи?
p.s: Моя мотивация для этого вопроса - то, что через неделю я делаю доклад на пользователе 2010 при "блоггинге и R", и я думал, что это могло бы быть хорошим способом и дать чему-то забаву аудитории и также заставить их делать что-то вроде этого самих.
Большое спасибо!
Tal
Tal,
Этот тип сбора данных называется k-snowball search в теории сетей и должен быть достаточно простым в R. Как вы отметили, самый простой способ выполнить это - использовать пакет XMl
и команду htmlTreeParse. Это разберет HTML из блога в дерево, что позволит вам легче выполнить интересующее вас извлечение ссылок.
Кроме того, igraph
прекрасно справится с представлением графов, но также имеет полезную функцию graph.compose для взятия двух графов и возвращения композиции их наборов ребер. Она понадобится вам для объединения данных по мере того, как вы будете продолжать "катить снежный ком". Основные шаги процесса:
У меня нет кода для этого в R, но я сгенерировал код, который выполняет очень похожий процесс в Python, используя Google SocialGraph API.
Удачи!