Попробуйте grep
, например:
grep -o "[[:print:][:space:]]*" in.txt > out.txt
, который будет печатать только буквенно-цифровые символы, включая знаки пунктуации и пробельные символы, такие как вкладка, новая линия, вертикальная вкладка, подача формы, возврат каретки и пробел.
Чтобы быть менее ограничительным и удалить только управляющие символы ([:cntrl:]
), удалите их по:
tr -d "[:cntrl:]"
Если вы хотите сохранить \n
(который является частью [:cntrl:]
), затем временно замените его на что-то другое, например
cat file.txt | tr '\r\n' '\275\276' | tr -d "[:cntrl:]" | tr "\275\276" "\r\n"