Два сообщения ниже являются отличными примерами различных подходов к извлечению данных с веб-сайтов и их синтаксическому анализу в R.
Скребок таблиц HTML в кадры данных R с использованием пакета XML
Как я могу использовать R (пакеты Rcurl / XML?!) Для очистки этой веб-страницы
Я новичок в программировании, и я только начинаю с R, поэтому я надеюсь, что этот вопрос довольно простой, но, учитывая эти сообщения выше, я полагаю, что это так.
Все, что я хочу сделать, это извлечь ссылки, соответствующие заданному шаблону. Мне кажется, я мог бы использовать RCurl для чтения веб-страниц и извлечения их методом грубой силы с помощью строковых выражений. Тем не менее, если веб-страница достаточно хорошо сформирована, как мне это сделать, используя пакет XML.
По мере того, как я узнаю больше, мне нравится «смотреть» на данные, когда я работаю над проблемой. Проблема в том, что некоторые из этих подходов генерируют списки списков списков и т. Д., Поэтому новичку (например, мне) сложно пройти туда, куда мне нужно.
Опять же, я очень новичок в все это программирование, поэтому мы будем благодарны за любую помощь или фрагменты кода.