В оболочке вы можете проанализировать HTML , используя:
hxselect
из html-xml-utils
package vim
/ ex
(который может легко перепрыгнуть между html-тегами ), например: удаление метки стиля с помощью внутреннего кода: $ curl -s http://example.com/ | ex -s +'/
grep
, например: извлечение внешнего html файла H1: $ curl -s http://example.com/ | grep -o '.*
'
Example Domain
извлечение тела: $ curl -s http://example.com/ | tr '\n' ' ' | grep -o '.*'
Example Domain
...
-
html2text
для простого синтаксического анализа текста: например, таблицы синтаксического анализа : $ html2text foo.txt | column -ts'|'
- с использованием
xpath
(XML::XPath
perl-модуля), см. здесь пример - perl или Python (см. пример @Gilles )
- для разбора нескольких файлов одновременно, см. Как разбирать сотню html файлы исходного кода в оболочке?
Связанный (почему вы не должны использовать регулярное выражение):
1
задан Brad 17 January 2019 в 15:42
поделиться
Попробуйте использовать Python 2.7, он лучше поддерживается Zope и Plone.
Plone использует Python 2.7.x до версии 5.1. В Plone 5.2 у вас будет возможность запускать Plone под Python 3, но тогда вам придется использовать WSGI-сервер вместо ZServer. Пока просто используйте Plone 5.1 с Python 2.7, так как Plone 5.2 все еще не выпущен окончательно.