Где я могу начать с благоприятным для Unicode программированием в C?

Question

Где я могу начать с благоприятным для Unicode программированием в C?

Так, я работаю над плоскостью-C (ANSI 9899:1999) проект и пытаюсь выяснить, где начать ре: Unicode, UTF-8 и весь тот джаз.

А именно, это - проект интерпретатора языка, и у меня есть два основных места, где я должен буду обработать Unicode: чтение в исходных файлах (язык якобы поддерживает идентификаторы Unicode и такой), и в 'строковых' объектах.

Я знаком со всеми очевидными основами о Unicode, UTF-7/8/16/32 и UCS-2/4, таким образом, на и т.д … я главным образом ищу полезный, C-specific (то есть, никакой C++ или C#, который является всем, которое это было зарегистрировано здесь на ТАК ЖЕ ранее), ресурсы относительно моих ‘следующих шагов’ для реализации благоприятного для Unicode материала … в C.

Любые ссылки, страницы справочника, статьи Wikipedia, пример кода, все чрезвычайно приветствуются. Я также попытаюсь вести список таких ресурсов здесь в исходном вопросе для кого-либо, кто происходит через него позже.

Необходимость читала прежде, чем рассмотреть что-либо еще, если Вы незнакомы с Unicode, и каково кодирование на самом деле: http://www.joelonsoftware.com/articles/Unicode.html
Домашняя страница UTF-8: http://www.utf-8.com/
man 3 iconv (а также iconv_open и iconvctl)
Международные компоненты для Unicode (через пронзительного Geoff)
libbasekit, который, кажется, включает легкие подсобные инструменты Unicode
Бойкий имеет некоторые функции Unicode
Основная функция детектора UTF-8, Christoph

8

c string unicode encoding unicode-string

задан 5 revs 23 May 2017 в 12:01

3 ответа

Думаю, один из интересных вопросов - каким должен быть ваш канонический внутренний формат для строк? Два очевидных варианта (по крайней мере, для меня) - это

a) utf8 в ванильных c-строках b) utf16 в беззнаковых коротких массивах

В предыдущих проектах я всегда выбирал utf-8. Почему ; потому что это путь наименьшего сопротивления в мире Си. Все, с чем вы взаимодействуете (stdio, string.h и т.д.), будет работать нормально.

Далее - какой формат файла. Проблема здесь в том, что он виден вашим пользователям (если только вы не предоставляете единственный редактор для вашего языка). Здесь, я думаю, вы должны взять то, что они вам дают, и попытаться угадать, подглядывая (знаки порядка байтов помогают)

0

ответ дан 5 December 2019 в 12:58

GLib имеет несколько функций Unicode и представляет собой довольно легкую библиотеку. Это не тот уровень функциональности, который предоставляет ICU, но может быть достаточно хорошим для некоторых приложений. Другие функции GLib также хороши для переносимых программ на C.

GTK + построен на основе GLib. GLib предоставляет фундаментальные алгоритмические языковые конструкции, которые обычно дублируются в приложениях. Эта библиотека имеет такие функции, как (этот список не является исчерпывающим):

Система объектов и типов

Главный цикл

Динамическая загрузка модулей (т.е. подключаемых модулей)

Поддержка потоков

Таймер поддержка

Распределитель памяти

Потоковые очереди (синхронные и асинхронные)

Списки (односвязные, двусвязные, двусторонние)

Хеш-таблицы

Массивы

Деревья (N-арные и двоичные сбалансированные )

Строковые утилиты и обработка кодировки

Лексический сканер и анализатор XML

Base64 (кодирование и декодирование)

3

ответ дан 5 December 2019 в 12:58

Другие вопросы по тегам:

c string unicode encoding unicode-string

Где я могу начать с благоприятным для Unicode программированием в C?

3 ответа

Похожие вопросы: