0
ответов

Использование символов Unicode в документации Haddock

Haddock, похоже, неправильно перекодирует символы, отличные от ASCII, в документации в исходных файлах с кодировкой UTF-8. Мне часто приходится включать математические формулы в документацию, а их очень много ...
вопрос задан: 1 March 2012 15:54
0
ответов

Кодировка, используемая для литералов u “”

Рассмотрим следующий пример: >>> s = u "баба" >>> с и '\ xe1 \ xe0 \ xe1 \ xe0' >>> print s áàáà Я использую кодировку cp1251 в режиме ожидания, но похоже, что на самом деле интерпретатор ...
вопрос задан: 29 February 2012 21:26
0
ответов

Python open () поведение файла unicode filename различается в разных операционных системах

Имя файла выглядит так: filename = u "/direc/tories/español.jpg" И при использовании open () как: fp = open (filename, "rb ") Это правильно откроет файл в OSX (10.7), но в Ubuntu 11.04 open () ...
вопрос задан: 29 February 2012 14:15
0
ответов

Есть ли список символов, похожих на английские буквы?

У меня есть проблемы с фильтрацией ненормативной лексики для веб-форума, написанного на Python. В рамках этого я пытаюсь написать функцию, которая принимает слово и возвращает все возможные фиктивные варианты его написания ...
вопрос задан: 29 February 2012 00:31
0
ответов

В C ++ 11 мне все еще нужна нестандартная библиотека обработки строк для текста Unicode?

Я заметил, что метод length в std :: string возвращает длину в байтах, а тот же метод в std :: u16string возвращает количество 2-байтовых последовательностей. Я также заметил, что когда символ или код ...
вопрос задан: 28 February 2012 05:00
0
ответов

Unicode с Cygwin и MinTTY не работают

Я не понимаю, почему Unicode не работает в моем терминале MinTTY. Я использую Windows XP, у меня Cygwin v1.7.10 и MinTTY v1.0.3. Я также использую оболочку zsh (через "oh-my-zsh"). Я установил local в "...
вопрос задан: 27 February 2012 23:52
0
ответов

Ошибка сортировки django python

Какова причина следующей ошибки? когда я пытаюсь выполнить фильтрацию с помощью: if MyObject.objects.filter (location = aDictionary ['address']): где местоположение определяется как: location = models.CharField (...
вопрос задан: 27 February 2012 04:21
0
ответов

Как правильно получить графему?

Почему здесь печатается U, а не Ü? #! / usr / bin / env perl использовать предупреждения; используйте 5.014; используйте utf8; binmode STDOUT, ': utf8'; используйте charnames qw (: full); my $ string = "\ N {ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА U} \ N {ОБЪЕДИН
вопрос задан: 24 February 2012 10:10
0
ответов

Откуда взялось значение mb_internal_encoding () по умолчанию?

Если бы я должен был написать новый файл php и включить echo «current mb_internal_encoding:» .mb_internal_encoding (), откуда бы взялось выходное значение? Как это «решается» / как это регулируется? ...
вопрос задан: 24 February 2012 03:03
0
ответов

Намерен ли Консорциум Unicode, чтобы в UTF-16 заканчивались символы? [закрыто]

Текущая версия UTF-16 способна кодировать только 1 112 064 различных числа (кодовых точек); 0x0-0x10FFFF. Намерен ли консорциум Unicode, чтобы в UTF-16 заканчивались символы? т.е. сделать ...
вопрос задан: 21 February 2012 19:47
0
ответов

Конфигурация NGINX для работы с Socket.IO

Итак, я пытался заставить это работать 2 дня и застрял. Я впервые настраиваю сервер для рельсов, использующий NodeJS + Socket IO. Я новичок в NGINX и Unicorn. В основном ...
вопрос задан: 21 February 2012 06:35
0
ответов

Perl: печать строк Unicode в консоли Windows

Я столкнулся со странной проблемой при печати строк Unicode в консоли Windows *. Рассмотрим этот текст: אני רוצה לישון Intermediary היא רוצה לישון אתם, הם Пока Привет мир! test Предположим, что это ...
вопрос задан: 21 February 2012 01:24
0
ответов

Google App Engine Python 2.7 + lxml = Unicode ParserError

Я пытаюсь использовать BeautifulSoup v4 для анализа документа. Я вызываю BeautifulSoup для note.content, который представляет собой строку, возвращаемую API Evernote: soup = BeautifulSoup (note.content) Я включил lxml ...
вопрос задан: 20 February 2012 19:57
0
ответов

Какие версии Unicode поддерживаются в каких версиях OS X и iOS?

Есть ли где-нибудь список или диаграмма, показывающая, какая версия Unicode поддерживается в различных выпусках OS X и iOS? Я не могу найти никакой документации от Apple по этому вопросу.
вопрос задан: 20 February 2012 17:02
0
ответов

можно ли получить значение Unicode символа или наоборот с помощью php?

Можно ли ввести символ и получить обратно значение Unicode? например, я могу поместить & # 12103 в html для вывода "⽇", можно ли передать этот символ в качестве аргумента функции и получить ...
вопрос задан: 20 February 2012 12:43
0
ответов

Что такое стандартные шрифты Unicode?

Что такое стандартные шрифты Unicode для следующих операционных систем : Windows XP Виндоус виста Window 7 По стандарту я имею в виду, что они присутствуют в новой установке ОС - их не нужно устанавливать ...
вопрос задан: 20 February 2012 11:29
0
ответов

Байты продолжения UTF-8

Я пытаюсь выяснить, что такое «байты продолжения» (ради любопытства) в кодировке UTF-8. Википедия вводит этот термин в статью о UTF-8, не определяя его при поиске в Google ...
вопрос задан: 20 February 2012 04:24
0
ответов

Как проверить, есть ли у символа Unicode диакритические знаки в .Net?

Я разрабатываю эвристику для автоматического определения языка и хотел бы узнать, есть ли у символа Unicode диакритические знаки в .Net? в данной букве есть диакритические знаки (например, «Русская буква» - все буквы имеют диакритические знаки). Было бы
вопрос задан: 19 February 2012 13:39
0
ответов

Как заставить __repr__ возвращать строку Unicode

Я вызываю функцию __repr __ () для объекта x следующим образом: val = x .__ repr __ (), а затем я хочу сохранить строку val в базе данных SQLite. Проблема в этот val должен быть юникодом. Я пробовал это без ...
вопрос задан: 17 February 2012 08:25
0
ответов

Установить кодировку в сценариях Python 3 CGI

При написании сценария Python 3.1 CGI я сталкиваюсь с ужасными ошибками UnicodeDecodeErrors. Однако при запуске скрипта из командной строки все работает. Кажется, что open () и print () используют return ...
вопрос задан: 17 February 2012 03:18
0
ответов

Как читать строку UTF-8 с учетом ее длины в символах в простом C89 ?

Я пишу кастомный кроссплатформенный минималистичный TCP-сервер на простом C89. (Но я также приму ответ, относящийся к POSIX.) Сервер работает со строками UTF-8, но никогда не заглядывает внутрь них. Он лечит ...
вопрос задан: 16 February 2012 23:40
0
ответов

Как написать gsub с фигурными кавычками для строк UTF-8?

Я пишу метод расширения для класса String для очистки не-ASCII символов. Строки, которые я очищаю, - UTF-8. При использовании в файле символов, отличных от ASCII, консоль не запускается ...
вопрос задан: 15 February 2012 23:51
0
ответов

сравнения строк Unicode?

В основном я пытаюсь сравнить «✔» == «✔» в Python (2.7). Но я продолжаю получать эту ошибку: SyntaxError: не-ASCII-символ '\ xe2'. Я читал документацию Python, но весь Unicode, кодировка, ...
вопрос задан: 14 February 2012 09:58
0
ответов

Почему `Pattern.compile (« (?: \ U00e9) », Pattern.CANON_EQ)` throw?

Нет ограничений на регулярное выражение, скомпилированное с помощью Pattern.CANON_EQ. Однако Pattern.compile ("(?: \ U00e9)", Pattern.CANON_EQ); выдает исключение: java.util.regex ....
вопрос задан: 13 February 2012 16:01
0
ответов

Как я могу указать кодировку исходных файлов Java?

Я использую странные строки Unicode в моих тестовых примерах Java. Компилятор, похоже, интерпретирует файл как iso-8859-1, заставляя JUnit жаловаться. В Python я могу указать кодировку в верхней части файла: # ...
вопрос задан: 12 February 2012 10:58
0
ответов

\w станет эквивалентом \p{L} в будущем?

Я не понимаю, почему с модификатором /u \w не работает, и мы должны изменить наш regex. Не говоря уже о \b. Так что кто-нибудь знает, если в новой версии (может быть php 6?) \w станет таким же, как \p{L} с ...
вопрос задан: 11 February 2012 16:40
0
ответов

Токенизация юникода с использованием nltk

У меня есть текстовые файлы, которые используют кодировку utf-8 и содержат символы вроде 'ö' , 'ü' и т. д. Я хотел бы проанализировать текст из этих файлов, но мне не удается заставить токенизатор работать должным образом. Если я использую стандартные ..
вопрос задан: 10 February 2012 13:33
0
ответов

Как правильно работать с экранированными символами юникода в R, например, с тире (-)

У меня проблемы с обработкой экранированных символов юникода в R, особенно тех, которые встречаются при получении информации из MediaWiki API. Я бы нашел строку JSON типа {"query":{"...
вопрос задан: 10 February 2012 06:55
0
ответов

utf8decode в delphi 7

Мне нужно использовать delphi 7 для преобразования строк из utf8 в широкую строку. Может ли кто-нибудь сказать мне, почему следующий код не работает в delphi 7? Параметр функции Utf8Decode - это всего лишь образец. ...
вопрос задан: 8 February 2012 10:22
0
ответов

Как заставить SQLAlchemy правильно вставлять многоточие Unicode в таблицу mySQL?

Я пытаюсь проанализировать RSS-канал с помощью feedparser и вставить его в таблицу mySQL с помощью SQLAlchemy. На самом деле мне удалось заставить это работать нормально, но сегодня в ленте был элемент с многоточием ...
вопрос задан: 6 February 2012 13:41