как создать веб-браузер на R с помощью readLines и grep?

Я новичок в R. Я хочу собрать корпус газетных статей объемом в 1 миллион слов. Итак, я пытаюсь написать веб-парсер для извлечения газетных статей, например, из веб-сайт опекуна: http://www.guardian.co.uk/politics/2011/oct/31/nick-clegg-investment-new-jobs .

Скребок предназначен для запуска на одной странице, получения основного текста статьи, удаления всех тегов и сохранения его в текстовый файл. Затем он должен перейти к следующей статье по ссылкам на этой странице, получить статью и так далее, пока файл не будет содержать около 1 миллиона слов.

К сожалению, со своим скребком я не очень далеко продвинулся.

Я использовал readLines (), чтобы добраться до исходного кода веб-сайта, и теперь хотел бы получить соответствующую строку в коде.

Соответствующий раздел в Guardian использует этот идентификатор для обозначения основного текста статьи:

Boris Johnson, the...a different approach."

Я пытался получить этот раздел, используя различные выражения с grep и lookbehind - пытаясь получить строку после этого идентификатора - но Я думаю, что это не работает с несколькими строками. По крайней мере, я не могу заставить его работать.

Кто-нибудь может помочь? Было бы здорово, если бы кто-нибудь предоставил мне код, над которым я мог бы продолжить работу!

Спасибо.

5
задан isomorphismes 20 January 2015 в 17:44
поделиться