7
ответов

Python: Разделение unicode представляет в виде строки на границах слова

Я должен взять строку и сократить ее к 140 символам. В настоящее время я делаю: если len (твит)> 140: напишите в Твиттере = re.sub (r" \s + "," ", твит) #normalize располагают нижний колонтитул с интервалами =" … "+ utils.
вопрос задан: 29 March 2012 18:23
5
ответов

Как я соответствую только полностью составленным символам в строке Unicode в Perl?

Я ищу способ соответствовать только полностью составленным символам в строке Unicode. [:печать:] зависящий от локали в какой-либо реализации регулярного выражения, которая включает этот класс символов?...
вопрос задан: 29 March 2012 18:22
4
ответа

JavaScript + Unicode regexes

Как я могу использовать осведомленные о Unicode регулярные выражения в JavaScript? Например, должно быть что-то сродни \w, который может соответствовать любой кодовой точке в категории Letters или Marks (не только ASCII)...
вопрос задан: 6 June 2016 12:54
4
ответа

Как я получаю список всех символов Unicode, которые имеют данное свойство?

Без цикличного выполнения по всему диапазону символов Unicode, как я могу получить список символов, которые имеют данное свойство? В особенности я хочу список всех символов, которые являются цифрами (т.е. они...
вопрос задан: 29 March 2012 18:24
3
ответа

Regex и unicode

У меня есть сценарий, который анализирует имена файлов телевизионных эпизодов (show.name.s01e02.avi, например), захватывает имя эпизода (от API www.thetvdb.com) и автоматически переименовывает их во что-то более хорошее (...
вопрос задан: 29 March 2012 18:10
3
ответа

Python regex соответствие свойствам Unicode

Perl и некоторые другие текущие regex механизмы поддерживают свойства Unicode, такие как категория, в regex. Например, в Perl можно использовать \p {Ll} для соответствия произвольной строчной букве или p {Zs} для любого пространства...
вопрос задан: 29 March 2012 05:42
2
ответа

Python и регулярное выражение с Unicode

Я должен удалить некоторые символы Unicode из строки 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ', я знаю, что они существуют здесь наверняка. Я попробовал: re.sub (' ([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED] +)', ''...
вопрос задан: 9 August 2017 11:05
2
ответа

Как определить, является ли символ китайским символом

Как определить, является ли символ китайским символом с помощью рубина ?
вопрос задан: 8 July 2012 18:03
2
ответа

Блок Unicode символа в Python

Существует ли способ получить Блок Unicode символа в Python? unicodedata модуль, кажется, не имеет то, в чем я нуждаюсь, и я не мог найти внешнюю библиотеку для него. В основном мне нужно то же...
вопрос задан: 29 March 2012 18:47
2
ответа

Как соответствовать символам кириллицы регулярному выражению

Как я соответствую французским и российским символам Кириллического алфавита регулярному выражению? Я только хочу сделать альфа-символы, никакие числа или специальные символы. Прямо сейчас я имею [A-Za-z]
вопрос задан: 29 March 2012 18:42
1
ответ

Как указать Regexp для unicode символов кириллицы в Ruby 1.9

#coding: utf-8 str2 = "asdfМикимаус" p str2.encoding # <Encoding:UTF-8> p str2.scan/\p {кириллица} / #found все символы кириллицы str2.gsub! (/\w/u''), #removes только латинские символы помещает str2...
вопрос задан: 29 March 2012 19:04
1
ответ

Соответствие только букве Юникода в Python re

У меня есть строка, из которой я хочу извлечь 3 группы: '19 janvier 2012 '->' 19 ',' janvier ',' 2012 'Название месяца может содержать не Символы ASCII, поэтому [A-Za-z] у меня не работает: >>> ...
вопрос задан: 29 March 2012 19:00
1
ответ

Соответствие тире Unicode в регулярных выражениях Java?

Я пытаюсь обработать регулярное выражение Java для разделения строк общего формата "нечто - панель" в "нечто" и "панель" с помощью Pattern.split (). "-" символ может быть одним из нескольких тире: ASCII '...
вопрос задан: 29 March 2012 18:50
1
ответ

Обрезка пробелов Unicode в PHP 5.2

Как я могу обрезать строку (6) «страница», где первый пробел - это неразрывный пробел 0xc2a0? Я пробовал trim () и preg_match ('/ ^ \ s * (. *) \ S * $ / u', $ key, $ m) ;. Другой вопрос: как я могу надежно ...
вопрос задан: 29 March 2012 18:13
0
ответов

Regular expression to match ASCII and Unicode letters

Recently I discovered, to my surprise, that JavaScript has no built-in support for Unicode regular expressions. So how can I test a string for letters only, Unicode or ASCII?
вопрос задан: 19 October 2018 07:42
0
ответов

Регулярное выражение для имен со специальными символами (Unicode)

Хорошо, я весь день читал о регулярных выражениях и до сих пор не понимаю их должным образом. Я пытаюсь проверить имя, но функции, которые я могу найти для этого в Интернете, используют только [a-zA-Z], ...
вопрос задан: 23 May 2017 10:31
0
ответов

Регулярное выражение Java для любого символа?

Существует ли регулярное выражение, которое принимает любой символ? РЕДАКТИРОВАТЬ: Чтобы уточнить, что я ищу ... Я хочу создать регулярное выражение, которое будет принимать ЛЮБОЕ количество пробелов, и оно должно содержать как минимум 1 символ (например
вопрос задан: 11 April 2015 21:07
0
ответов

regular expression containing unicode words

I'd like to match all strings containing a certain word. like: String regex = (?:\P{L}|\W|^)(ベスパ)(?:\b|$) however, the Pattern class doesn't compile it: java.util.regex.PatternSyntaxException: ...
вопрос задан: 4 April 2015 19:04
0
ответов

Соответствовать любой букве Юникода?

В .net вы можете использовать \ p {L} для соответствия любой букве, как я могу сделать то же самое в Python? А именно, я хочу сопоставить любые буквы верхнего и нижнего регистра и буквы с диакритическими знаками.
вопрос задан: 20 February 2015 16:36
0
ответов

Заменить управляющие символы Unicode

Мне нужно заменить все специальные управляющие символы в строке в Java. Я хочу спросить API карт Google v3, и Google, похоже, не любит эти символы. Пример: http: //www.google.com/maps/api / ...
вопрос задан: 22 November 2012 15:54
0
ответов

Javascript unicode (greek) regular expressions

I would like to use this regular expression new RegExp("\b"+pat+"\b") in greek text but the "\b" metacharacter supports only ASCII characters. I tried XregExp library but i didnt manage to solve the ...
вопрос задан: 1 September 2012 05:22
0
ответов

How to know the preferred display width (in columns) of Unicode characters?

In different encodings of Unicode, for example UTF-16le or UTF-8, a character may occupy 2 or 3 bytes. Many Unicode applications doesn't take care of display width of Unicode chars just like they are ...
вопрос задан: 26 July 2012 11:30
0
ответов

Как пометить весь текст CJK в документе?

У меня есть файл file1.txt, содержащий текст на английском, китайском, японском и корейском языках. Для использования в ConTeXt мне нужно пометить каждую область текста в файле в соответствии с языком, кроме английского,...
вопрос задан: 19 May 2012 23:33
0
ответов

Как проверить и китайское (юникод), и английское имя?

У меня многоязычный веб-сайт ( Китайский и английский). Мне нравится проверять текстовое поле (поле имени) в javascript. Пока у меня есть следующий код. var chkName = / ^ [символы] {1,20} $ /; if (chkName ....
вопрос задан: 29 March 2012 19:02
0
ответов

соответствие символов Юникода в регулярных выражениях Python

Я прочитал другие вопросы в Stackoverflow, но все еще не ближе. Извините, если на это уже есть ответ, но я не получил ничего из предложенного для работы. >>> импорт ре >>> ...
вопрос задан: 29 March 2012 18:58
0
ответов

Сопоставление идентификатора Unicode C # с использованием Regex

Каков правильный способ сопоставления идентификатор C #, конкретно имя свойства или поля с использованием шаблонов .Net Regex? Задний план. Раньше я использовал ASCII-ориентированный @ "[_ a-zA-Z] [_ a-zA-Z0-9] *" Но теперь ...
вопрос задан: 29 March 2012 18:52
0
ответов

Соответствующий корпус чувствительные строки Юникода с регулярными выражениями в Python

предположим, что я хочу сопоставить строчную букву, за которой следует заглавная буква, я мог бы сделать что-то вроде Re.compile (R »[AZ] [AZ]») сейчас Я хочу сделать то же самое для строк Unicode, то есть матч ...
вопрос задан: 29 March 2012 18:51
0
ответов

Соответствие (например, ) буква Unicode с регулярными выражениями Java

Здесь, в StackOverflow, есть много вопросов и ответов, в которых предполагается, что «буква» может быть сопоставлена ​​в регулярном выражении с помощью [a-zA-Z]. Однако в Unicode есть намного больше символов, которые большинство людей могло бы ...
вопрос задан: 29 March 2012 18:46
0
ответов

Сканирование номеров Unicode в строке с \ d

Согласно документации Oniguruma, тип символа \ d соответствует: десятичная цифра char Unicode: General_Category - Decimal_Number Однако сканирование для \ d в строке со всеми ...
вопрос задан: 29 March 2012 18:38
0
ответов

Как проверить, какой язык поддерживает уровень поддержки регулярных выражений Юникода?

Различные уровни поддержки регулярных выражений Юникода описаны в UTS#18. Есть ли способ иметь несколько тестов для каждого требования, так что можно перенести тесты на язык в ...
вопрос задан: 29 March 2012 18:26