Как я делаю поиск regex в Nokogiri для текста, который соответствует определенному началу?

Lynx, кажется, способен получать просто текст, в котором я нуждаюсь (довольное тело и сопроводительный текст) и игнорирующий, в чем я не нуждаюсь (встроил JavaScript и CSS).

lynx -dump http://www.example.com

Это также перечисляет все URL (преобразованный в их абсолютную форму) на странице, которая может быть отфильтрована с помощью grep:

lynx -dump http://www.example.com | grep -v "http"

URL могли также быть локальны (file://), если я использовал wget для зеркального отражения сайта.

я запишу сценарий, который обработает ряд URL с помощью этого метода и произведет каждую страницу к отдельному текстовому файлу. Я могу тогда использовать существующее решение для проверки правописания проверить файлы (или единственный большой файл, комбинирующий все маленькие).

Это проигнорирует текст в заголовке и meta элементах. Они могут быть spellchecked отдельно.

25
задан Jason Swett 12 February 2016 в 16:39
поделиться

3 ответа

Используйте функцию xpath , начинается с :

value.xpath('//p[starts-with(@id, "para-")]').each { |x| puts x['id'] }
70
ответ дан 28 November 2019 в 17:46
поделиться

И некоторые документы, которые вы ищете:

2
ответ дан 28 November 2019 в 17:46
поделиться
divs = value.css('div[id^="para-"]')
18
ответ дан 28 November 2019 в 17:46
поделиться
Другие вопросы по тегам:

Похожие вопросы: