Отформатируйте строку, используя регулярное выражение в Java

Попробуйте grep, например:

grep -o "[[:print:][:space:]]*" in.txt > out.txt

, который будет печатать только буквенно-цифровые символы, включая знаки пунктуации и пробельные символы, такие как вкладка, новая линия, вертикальная вкладка, подача формы, возврат каретки и пробел.

Чтобы быть менее ограничительным и удалить только управляющие символы ([:cntrl:]), удалите их по:

tr -d "[:cntrl:]"

Если вы хотите сохранить \n (который является частью [:cntrl:]), затем временно замените его на что-то другое, например

cat file.txt | tr '\r\n' '\275\276' | tr -d "[:cntrl:]" | tr "\275\276" "\r\n"

13
задан Vrushank 19 November 2011 в 19:46
поделиться