Удалить недопустимые символы UNICODE из файла XML в UNIX?

Вот мое решение. Пожалуйста, исправьте, если я ошибаюсь.

class Spiral:

def spiralOrder(self, A):
    result = []
    c = []
    c.append(A[0])
    b = A[1:]
    while len(b) > 0:
        b = self.rotate(b)
        c.append(b[0])
        b = b[1:]
    for item in c:
        for fitem in item:
            print fitem,
            result.append(fitem)
    return result

def rotate(self,a):
    b = []
    l = zip(*a)
    for i in xrange(len(l)-1,-1,-1):
        b.append(list(l[i]))
    return b

if __name__ == '__main__':
  a = [[1, 2, 3,3], [4, 5, 6,6], [7, 8, 9,10]]
  s = Spiral()
s.spiralOrder(a)
1
задан chronos 18 March 2019 в 17:41
поделиться

2 ответа

Вы можете использовать следующий лайнер:

perl -i -MEncode -0777ne'print encode("UTF-8",decode("UTF-8",

Вы можете использовать следующий лайнер:

[110]

Вы также можете расширить его с предупреждениями:

perl -i -MEncode -0777ne'print encode("UTF-8",decode("UTF-8",

Вы можете использовать следующий лайнер:

[110]

Вы также можете расширить его с предупреждениями:

[111],sub{warn "Bad byte: @_";""}))' file.xml
,sub{""}))' file.xml

Вы также можете расширить его с предупреждениями:

perl -i -MEncode -0777ne'print encode("UTF-8",decode("UTF-8",

Вы можете использовать следующий лайнер:

[110]

Вы также можете расширить его с предупреждениями:

[111],sub{warn "Bad byte: @_";""}))' file.xml
0
ответ дан Mons Anderson 18 March 2019 в 17:41
поделиться

A0 не является допустимой последовательностью UTF-8. Ошибки, с которыми вы сталкивались, где ошибки кодирования XML, в то время как эта - ошибка кодировки символов.

A0 - это кодовая точка Unicode для неразрывного пробела. Это также кодировка iso-8859-1 и cp1252 этой кодовой точки.

Я бы порекомендовал исправить проблему у ее источника. Но если это невозможно, я бы порекомендовал использовать Encoding :: FixLatin для исправления этого нового типа ошибки (возможно, с помощью связанного скрипта fix_latin). Он правильно заменит A0 на C2 A0 (кодировка UTF-8 неразрывного пробела).

В сочетании с существующим сценарием:

perl -i -MEncoding::FixLatin=fix_latin -0777pe'
   

A0 не является допустимой последовательностью UTF-8. Ошибки, с которыми вы сталкивались, где ошибки кодирования XML, в то время как эта - ошибка кодировки символов.

A0 - это кодовая точка Unicode для неразрывного пробела. Это также кодировка iso-8859-1 и cp1252 этой кодовой точки.

Я бы порекомендовал исправить проблему у ее источника. Но если это невозможно, я бы порекомендовал использовать Encoding :: FixLatin для исправления этого нового типа ошибки (возможно, с помощью связанного скрипта fix_latin). Он правильно заменит A0 на C2 A0 (кодировка UTF-8 неразрывного пробела).

В сочетании с существующим сценарием:

[110] = fix_latin(

A0 не является допустимой последовательностью UTF-8. Ошибки, с которыми вы сталкивались, где ошибки кодирования XML, в то время как эта - ошибка кодировки символов.

A0 - это кодовая точка Unicode для неразрывного пробела. Это также кодировка iso-8859-1 и cp1252 этой кодовой точки.

Я бы порекомендовал исправить проблему у ее источника. Но если это невозможно, я бы порекомендовал использовать Encoding :: FixLatin для исправления этого нового типа ошибки (возможно, с помощью связанного скрипта fix_latin). Он правильно заменит A0 на C2 A0 (кодировка UTF-8 неразрывного пробела).

В сочетании с существующим сценарием:

[110]); utf8::decode(

A0 не является допустимой последовательностью UTF-8. Ошибки, с которыми вы сталкивались, где ошибки кодирования XML, в то время как эта - ошибка кодировки символов.

A0 - это кодовая точка Unicode для неразрывного пробела. Это также кодировка iso-8859-1 и cp1252 этой кодовой точки.

Я бы порекомендовал исправить проблему у ее источника. Но если это невозможно, я бы порекомендовал использовать Encoding :: FixLatin для исправления этого нового типа ошибки (возможно, с помощью связанного скрипта fix_latin). Он правильно заменит A0 на C2 A0 (кодировка UTF-8 неразрывного пробела).

В сочетании с существующим сценарием:

[110]); s/[^\x9\xA\xD\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]+//g; utf8::encode(

A0 не является допустимой последовательностью UTF-8. Ошибки, с которыми вы сталкивались, где ошибки кодирования XML, в то время как эта - ошибка кодировки символов.

A0 - это кодовая точка Unicode для неразрывного пробела. Это также кодировка iso-8859-1 и cp1252 этой кодовой точки.

Я бы порекомендовал исправить проблему у ее источника. Но если это невозможно, я бы порекомендовал использовать Encoding :: FixLatin для исправления этого нового типа ошибки (возможно, с помощью связанного скрипта fix_latin). Он правильно заменит A0 на C2 A0 (кодировка UTF-8 неразрывного пробела).

В сочетании с существующим сценарием:

[110]); ' file.xml
0
ответ дан ikegami 18 March 2019 в 17:41
поделиться
Другие вопросы по тегам:

Похожие вопросы: