Извлечение ссылок с веб-страницы с использованием R

Два сообщения ниже являются отличными примерами различных подходов к извлечению данных с веб-сайтов и их синтаксическому анализу в R.

Скребок таблиц HTML в кадры данных R с использованием пакета XML

Как я могу использовать R (пакеты Rcurl / XML?!) Для очистки этой веб-страницы

Я новичок в программировании, и я только начинаю с R, поэтому я надеюсь, что этот вопрос довольно простой, но, учитывая эти сообщения выше, я полагаю, что это так.

Все, что я хочу сделать, это извлечь ссылки, соответствующие заданному шаблону. Мне кажется, я мог бы использовать RCurl для чтения веб-страниц и извлечения их методом грубой силы с помощью строковых выражений. Тем не менее, если веб-страница достаточно хорошо сформирована, как мне это сделать, используя пакет XML.

По мере того, как я узнаю больше, мне нравится «смотреть» на данные, когда я работаю над проблемой. Проблема в том, что некоторые из этих подходов генерируют списки списков списков и т. Д., Поэтому новичку (например, мне) сложно пройти туда, куда мне нужно.

Опять же, я очень новичок в все это программирование, поэтому мы будем благодарны за любую помощь или фрагменты кода.

26
задан Community 23 May 2017 в 11:53
поделиться