Lynx, кажется, способен получать просто текст, в котором я нуждаюсь (довольное тело и сопроводительный текст) и игнорирующий, в чем я не нуждаюсь (встроил JavaScript и CSS).
lynx -dump http://www.example.com
Это также перечисляет все URL (преобразованный в их абсолютную форму) на странице, которая может быть отфильтрована с помощью grep:
lynx -dump http://www.example.com | grep -v "http"
URL могли также быть локальны (file://
), если я использовал wget для зеркального отражения сайта.
я запишу сценарий, который обработает ряд URL с помощью этого метода и произведет каждую страницу к отдельному текстовому файлу. Я могу тогда использовать существующее решение для проверки правописания проверить файлы (или единственный большой файл, комбинирующий все маленькие).
Это проигнорирует текст в заголовке и meta элементах. Они могут быть spellchecked отдельно.
Используйте функцию xpath , начинается с
:
value.xpath('//p[starts-with(@id, "para-")]').each { |x| puts x['id'] }