Получение всех ссылок веб-страницы с помощью Ruby

Я пытаюсь получить каждую внешнюю ссылку веб-страницы с помощью Ruby. Я использую String.scan с этим регулярным выражением:

/href="https?:[^"]*|href='https?:[^']*/i

Затем я могу использовать gsub для удаления части href:

str.gsub(/href=['"]/)

Это работает нормально, но я не уверен, что это эффективно с точки зрения производительности. Можно ли это использовать или мне следует работать с более конкретным парсером (например, nokogiri)? Какой способ лучше?

Спасибо!

11
задан Fábio Perez 14 July 2011 в 21:50
поделиться