Удаление символов, отличных от UTF-8, из большого текстового файла.

Я работаю над текстовым файлом JSON объемом 1 гигабайт, который пытаюсь проанализировать с помощью Java. Однако синтаксический анализатор выдает исключение, потому что он сталкивается с символом 'ñ', генерирующим это исключение:

Exception Invalid UTF-8 start byte 0x96

Я пытался удалить символ с помощью sed и perl, но мне кажется что они не могут прочитать символ и, таким образом, файл остается неизменным. Я хотел бы удалить символ из всего файла или заменить его любым другим символом или строкой, чтобы синтаксический анализ работал.

5
задан SomeKittens 19 June 2012 в 16:40
поделиться