Существует ли простой путь в Linux для лишения веб-сайта текста из командной строки?

Я искал инструмент командной строки, который повернул бы HTML-код в просто текст, который появится на сайте..., таким образом, это было бы эквивалентно в веб-браузере, выбирающем все и затем вставляющем его в текстовый редактор...

Кто-либо знает о чем-то в Ubuntu, которая сделала бы это? Я пытаюсь записать сценарий для парсинга некоторых веб-страниц, но предпочел бы не должным быть иметь дело с HTML и предпочту просто анализировать текст, который появляется на веб-сайте.

Спасибо,

Dan

6
задан Dan 24 February 2010 в 22:12
поделиться

3 ответа

lynx -dump http://example.com/
12
ответ дан 8 December 2019 в 05:54
поделиться

если у вас уже есть html-файл:

lynx -dump file.html > file.txt

в противном случае используйте @ Ignacio's

7
ответ дан 8 December 2019 в 05:54
поделиться

Думаю, вам понадобится lynx:

lynx -dump http://stackoverflow.com > file
3
ответ дан 8 December 2019 в 05:54
поделиться
Другие вопросы по тегам:

Похожие вопросы: