Python: Как я могу заменить полноширинные символы полуширинными символами?

Question

Python: Как я могу заменить полноширинные символы полуширинными символами?

Если бы это было PHP, то я, вероятно, сделал бы что-то вроде этого:

function no_more_half_widths($string){
  $foo = array('１','２','３','４','５','６','７','８','９','１０')
  $bar = array('1','2','3','4','5','6','7','8','9','10')
  return str_replace($foo, $bar, $string)
}

Я попробовал функцию .translate в Python, и это указывает, что массивы не имеют того же размера. Я предполагаю, что это - то, вследствие того, что отдельные символы кодируются в utf-8. Какие-либо предложения?

10

python unicode translation

задан ghostdog74 11 March 2010 в 02:43

4 ответа

Я не думаю, что есть встроенная функция для выполнения нескольких замен за один проход, поэтому вам придется делать это самостоятельно.

Один из способов сделать это:

>>> src = (u'１',u'２',u'３',u'４',u'５',u'６',u'７',u'８',u'９',u'１０')
>>> dst = ('1','2','3','4','5','6','7','8','9','0')
>>> string = u'a１２３'
>>> for i, j in zip(src, dst):
...     string = string.replace(i, j)
... 
>>> string
u'a123'

Или использовать словарь:

>>> trans = {u'１': '1', u'２': '2', u'３': '3', u'４': '4', u'５': '5', u'６': '6', u'７': '7', u'８': '8', u'９': '9', u'０': '0'}
>>> string = u'a１２３'
>>> for i, j in trans.iteritems():
...     string = string.replace(i, j)
...     
>>> string
u'a123'

Или, наконец, использовать регулярное выражение (и это может быть самым быстрым):

>>> import re
>>> trans = {u'１': '1', u'２': '2', u'３': '3', u'４': '4', u'５': '5', u'６': '6', u'７': '7', u'８': '8', u'９': '9', u'０': '0'}
>>> lookup = re.compile(u'|'.join(trans.keys()), re.UNICODE)
>>> string = u'a１２３'
>>> lookup.sub(lambda x: trans[x.group()], string)
u'a123'

3

ответ дан 3 December 2019 в 14:06

Использование метода unicode.translate :

>>> table = dict(zip(map(ord,u'０１２３４５６７８９'),map(ord,u'0123456789')))
>>> print u'１２３'.translate(table)
123

Требуется отображение кодовых точек как чисел , а не символов. Кроме того, использование u'unicode literals ' оставляет значения незакодированными.

3

ответ дан 3 December 2019 в 14:06

Подход с использованием регулярных выражений

>>> import re
>>> re.sub(u"[\uff10-\uff19]",lambda x:chr(ord(x.group(0))-0xfee0),u"４５６")
u'456'

3

ответ дан 3 December 2019 в 14:06

Другие вопросы по тегам:

python unicode translation

Python: Как я могу заменить полноширинные символы полуширинными символами?

4 ответа

Похожие вопросы: