Boris Johnson, the...a different approach."
Я новичок в R. Я хочу собрать корпус газетных статей объемом в 1 миллион слов. Итак, я пытаюсь написать веб-парсер для извлечения газетных статей, например, из веб-сайт опекуна: http://www.guardian.co.uk/politics/2011/oct/31/nick-clegg-investment-new-jobs .
Скребок предназначен для запуска на одной странице, получения основного текста статьи, удаления всех тегов и сохранения его в текстовый файл. Затем он должен перейти к следующей статье по ссылкам на этой странице, получить статью и так далее, пока файл не будет содержать около 1 миллиона слов.
К сожалению, со своим скребком я не очень далеко продвинулся.
Я использовал readLines (), чтобы добраться до исходного кода веб-сайта, и теперь хотел бы получить соответствующую строку в коде.
Соответствующий раздел в Guardian использует этот идентификатор для обозначения основного текста статьи:
Boris Johnson,
the...a different approach."
Я пытался получить этот раздел, используя различные выражения с grep и lookbehind - пытаясь получить строку после этого идентификатора - но Я думаю, что это не работает с несколькими строками. По крайней мере, я не могу заставить его работать.
Кто-нибудь может помочь? Было бы здорово, если бы кто-нибудь предоставил мне код, над которым я мог бы продолжить работу!
Спасибо.