Как я делаю поиск regex в Nokogiri для текста, который соответствует определенному началу?

Question

Как я делаю поиск regex в Nokogiri для текста, который соответствует определенному началу?

Lynx, кажется, способен получать просто текст, в котором я нуждаюсь (довольное тело и сопроводительный текст) и игнорирующий, в чем я не нуждаюсь (встроил JavaScript и CSS).

lynx -dump http://www.example.com

Это также перечисляет все URL (преобразованный в их абсолютную форму) на странице, которая может быть отфильтрована с помощью grep:

lynx -dump http://www.example.com | grep -v "http"

URL могли также быть локальны (file://), если я использовал wget для зеркального отражения сайта.

я запишу сценарий, который обработает ряд URL с помощью этого метода и произведет каждую страницу к отдельному текстовому файлу. Я могу тогда использовать существующее решение для проверки правописания проверить файлы (или единственный большой файл, комбинирующий все маленькие).

Это проигнорирует текст в заголовке и meta элементах. Они могут быть spellchecked отдельно.

25

ruby nokogiri hpricot

задан Jason Swett 12 February 2016 в 16:39

3 ответа

И некоторые документы, которые вы ищете:

Nokogiri: http://nokogiri.org/
XPath: http: //www.w3.org/TR/xpath20/[1259ptingCSS3 Selectors: http://www.w3.org/TR/selectors/

2

ответ дан 28 November 2019 в 17:46

divs = value.css('div[id^="para-"]')

18

ответ дан 28 November 2019 в 17:46

Другие вопросы по тегам:

ruby nokogiri hpricot

Как я делаю поиск regex в Nokogiri для текста, который соответствует определенному началу?

3 ответа

Похожие вопросы: