Удаление символов, отличных от UTF-8, из большого текстового файла.

Question

Удаление символов, отличных от UTF-8, из большого текстового файла.

Я работаю над текстовым файлом JSON объемом 1 гигабайт, который пытаюсь проанализировать с помощью Java. Однако синтаксический анализатор выдает исключение, потому что он сталкивается с символом 'ñ', генерирующим это исключение:

Exception Invalid UTF-8 start byte 0x96

Я пытался удалить символ с помощью sed и perl, но мне кажется что они не могут прочитать символ и, таким образом, файл остается неизменным. Я хотел бы удалить символ из всего файла или заменить его любым другим символом или строкой, чтобы синтаксический анализ работал.

5

java utf-8 json large-files

задан SomeKittens 19 June 2012 в 16:40

0 ответов

Другие вопросы по тегам:

java utf-8 json large-files

Удаление символов, отличных от UTF-8, из большого текстового файла.

0 ответов

Похожие вопросы: