Я искал инструмент командной строки, который повернул бы HTML-код в просто текст, который появится на сайте..., таким образом, это было бы эквивалентно в веб-браузере, выбирающем все и затем вставляющем его в текстовый редактор...
Кто-либо знает о чем-то в Ubuntu, которая сделала бы это? Я пытаюсь записать сценарий для парсинга некоторых веб-страниц, но предпочел бы не должным быть иметь дело с HTML и предпочту просто анализировать текст, который появляется на веб-сайте.
Спасибо,
Dan
если у вас уже есть html-файл:
lynx -dump file.html > file.txt
в противном случае используйте @ Ignacio's
Думаю, вам понадобится lynx:
lynx -dump http://stackoverflow.com > file