Как Вы рекурсивно разархивировали архивы в каталоге и его подкаталогах от командной строки Unix?

В качестве метода грубой силы вы можете использовать Безголовый браузер , чтобы загрузить каждую страницу для вас и сохранить ее в файл.

Но, как уже упоминалось в mplungjan, все тексты находятся в js-файлах.

Вы можете сохранить эти файлы на свой диск, затем взять скрипт, который создает html-страницу, и написать небольшой скрипт nodejs, который создаст все html-файлы для вас. (Возьмите оригинальный скрипт в качестве шаблона.)
Но nodejs - это не Python

В зависимости от того, что вы пытаетесь сделать с текстами, это Трудно преобразовать эти js-файлы в JSON и проанализировать его, или непосредственно в структуру данных Python, которую вы можете импортировать и обработать в каком-либо скрипте по вашему выбору.

Редактировать:

На второй взгляд, я только что видел это: ]

Похоже, что вам нужны файлы в виде простого html, вам просто нужно загрузить их.

57
задан chuckrector 20 September 2008 в 12:06
поделиться

2 ответа

Если вы хотите извлечь файлы в соответствующую папку, вы можете попробовать следующее

find . -name "*.zip" | while read filename; do unzip -o -d "`dirname "$filename"`" "$filename"; done;

Многопроцессорная версия для систем, которые могут обрабатывать большой объем ввода-вывода:

find . -name "*.zip" | xargs -P 5 -I fileName sh -c 'unzip -o -d "$(dirname "fileName")/$(basename -s .zip "fileName")" "fileName"'
94
ответ дан 24 November 2019 в 19:22
поделиться

Если вы используете Cygwin, синтаксис немного отличается для базового имени Команда.

find . -name "*.zip" | while read filename; do unzip -o -d "`basename "$filename" .zip`" "$filename"; done;
0
ответ дан 24 November 2019 в 19:22
поделиться
Другие вопросы по тегам:

Похожие вопросы: