Haddock, похоже, неправильно перекодирует символы, отличные от ASCII, в документации в исходных файлах с кодировкой UTF-8. Мне часто приходится включать математические формулы в документацию, а их очень много ...
Рассмотрим следующий пример: >>> s = u "баба"
>>> с
и '\ xe1 \ xe0 \ xe1 \ xe0'
>>> print s
áàáà Я использую кодировку cp1251 в режиме ожидания, но похоже, что на самом деле интерпретатор ...
Имя файла выглядит так: filename = u "/direc/tories/español.jpg" И при использовании open () как: fp = open (filename, "rb ") Это правильно откроет файл в OSX (10.7), но в Ubuntu 11.04 open () ...
У меня есть проблемы с фильтрацией ненормативной лексики для веб-форума, написанного на Python. В рамках этого я пытаюсь написать функцию, которая принимает слово и возвращает все возможные фиктивные варианты его написания ...
Я заметил, что метод length в std :: string возвращает длину в байтах, а тот же метод в std :: u16string возвращает количество 2-байтовых последовательностей. Я также заметил, что когда символ или код ...
Я не понимаю, почему Unicode не работает в моем терминале MinTTY. Я использую Windows XP, у меня Cygwin v1.7.10 и MinTTY v1.0.3. Я также использую оболочку zsh (через "oh-my-zsh"). Я установил local в "...
Какова причина следующей ошибки? когда я пытаюсь выполнить фильтрацию с помощью: if MyObject.objects.filter (location = aDictionary ['address']): где местоположение определяется как: location = models.CharField (...
Почему здесь печатается U, а не Ü? #! / usr / bin / env perl
использовать предупреждения;
используйте 5.014;
используйте utf8;
binmode STDOUT, ': utf8';
используйте charnames qw (: full); my $ string = "\ N {ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U} \ N {ОБЪЕДИН
Если бы я должен был написать новый файл php и включить echo «current mb_internal_encoding:» .mb_internal_encoding (), откуда бы взялось выходное значение? Как это «решается» / как это регулируется? ...
Текущая версия UTF-16 способна кодировать только 1 112 064 различных числа (кодовых точек); 0x0-0x10FFFF. Намерен ли консорциум Unicode, чтобы в UTF-16 заканчивались символы? т.е. сделать ...
Итак, я пытался заставить это работать 2 дня и застрял. Я впервые настраиваю сервер для рельсов, использующий NodeJS + Socket IO. Я новичок в NGINX и Unicorn. В основном ...
Я столкнулся со странной проблемой при печати строк Unicode в консоли Windows *. Рассмотрим этот текст: אני רוצה לישון Intermediary היא רוצה לישון
אתם, הם
Пока
Привет мир!
test Предположим, что это ...
Я пытаюсь использовать BeautifulSoup v4 для анализа документа. Я вызываю BeautifulSoup для note.content, который представляет собой строку, возвращаемую API Evernote: soup = BeautifulSoup (note.content) Я включил lxml ...
Есть ли где-нибудь список или диаграмма, показывающая, какая версия Unicode поддерживается в различных выпусках OS X и iOS? Я не могу найти никакой документации от Apple по этому вопросу.
Можно ли ввести символ и получить обратно значение Unicode? например, я могу поместить & # 12103 в html для вывода "⽇", можно ли передать этот символ в качестве аргумента функции и получить ...
Что такое стандартные шрифты Unicode для следующих операционных систем : Windows XP
Виндоус виста
Window 7 По стандарту я имею в виду, что они присутствуют в новой установке ОС - их не нужно устанавливать ...
Я пытаюсь выяснить, что такое «байты продолжения» (ради любопытства) в кодировке UTF-8. Википедия вводит этот термин в статью о UTF-8, не определяя его при поиске в Google ...
Я разрабатываю эвристику для автоматического определения языка и хотел бы узнать, есть ли у символа Unicode диакритические знаки в .Net? в данной букве есть диакритические знаки (например, «Русская буква» - все буквы имеют диакритические знаки). Было бы
Я вызываю функцию __repr __ () для объекта x следующим образом: val = x .__ repr __ (), а затем я хочу сохранить строку val в базе данных SQLite. Проблема в
этот val должен быть юникодом. Я пробовал это без ...
При написании сценария Python 3.1 CGI я сталкиваюсь с ужасными ошибками UnicodeDecodeErrors. Однако при запуске скрипта из командной строки все работает. Кажется, что open () и print () используют return ...
Я пишу кастомный кроссплатформенный минималистичный TCP-сервер на простом C89. (Но я также приму ответ, относящийся к POSIX.) Сервер работает со строками UTF-8, но никогда не заглядывает внутрь них. Он лечит ...
Я пишу метод расширения для класса String для очистки не-ASCII символов. Строки, которые я очищаю, - UTF-8. При использовании в файле символов, отличных от ASCII, консоль не запускается ...
В основном я пытаюсь сравнить «✔» == «✔» в Python (2.7). Но я продолжаю получать эту ошибку: SyntaxError: не-ASCII-символ '\ xe2'. Я читал документацию Python, но весь Unicode, кодировка, ...
Нет ограничений на регулярное выражение, скомпилированное с помощью Pattern.CANON_EQ. Однако Pattern.compile ("(?: \ U00e9)", Pattern.CANON_EQ); выдает исключение: java.util.regex ....
Я использую странные строки Unicode в моих тестовых примерах Java. Компилятор, похоже, интерпретирует файл как iso-8859-1, заставляя JUnit жаловаться. В Python я могу указать кодировку в верхней части файла: # ...
Я не понимаю, почему с модификатором /u \w не работает, и мы должны изменить наш regex. Не говоря уже о \b. Так что кто-нибудь знает, если в новой версии (может быть php 6?) \w станет таким же, как \p{L} с ...
У меня есть текстовые файлы, которые используют кодировку utf-8 и содержат символы вроде 'ö' , 'ü' и т. д. Я хотел бы проанализировать текст из этих файлов, но мне не удается заставить токенизатор работать должным образом. Если я использую стандартные ..
У меня проблемы с обработкой экранированных символов юникода в R, особенно тех, которые встречаются при получении информации из MediaWiki API. Я бы нашел строку JSON типа {"query":{"...
Мне нужно использовать delphi 7 для преобразования строк из utf8 в широкую строку. Может ли кто-нибудь сказать мне, почему следующий код не работает в delphi 7? Параметр функции Utf8Decode - это всего лишь образец. ...
Я пытаюсь проанализировать RSS-канал с помощью feedparser и вставить его в таблицу mySQL с помощью SQLAlchemy. На самом деле мне удалось заставить это работать нормально, но сегодня в ленте был элемент с многоточием ...