Можно ли программно сортировать японские слова кандзи?

Question

Можно ли программно сортировать японские слова кандзи?

Недавно я обнаружил, к своему удивлению (никогда особо не задумывался об этом раньше), что машинная сортировка японских имен собственных, очевидно, невозможна.

Я работаю над приложение, которое должно позволять пользователю выбирать больницу из интерфейса с 3 меню. Первое меню - это префектура, второе - название города, а третье - больница. Каждое меню должно быть отсортировано, как и следовало ожидать, чтобы пользователь мог найти в меню то, что ему нужно.

Позвольте мне описать то, что я нашел, в качестве преамбулы к моему вопросу:

Ожидаемый порядок сортировки японских слов основан на их произношении. Кандзи не имеют внутреннего порядка (используются десятки тысяч кандзи), но в японских фонетических слоговых словах есть порядок: あ、い、う、え、お、かき、く、け、こ .. ... и далее для пятидесяти традиционных различных звуков (некоторые из которых являются устаревшими в современном японском языке). Такой порядок сортировки называется 五十音順 (годзю в джун, или «порядок 50 звуков»).
Следовательно, слова кандзи должны быть отсортированы в том же порядке, в каком они были бы написаны хираганой. (Вы можете представить любое слово кандзи в фонетической хирагане на японском языке.)
Кикер: не существует канонического способа определить произношение данного слова, написанного на кандзи. Никогда не знаешь. У некоторых кандзи есть десять или более различных произношений, в зависимости от слова. В словаре есть много общих слов, и я, вероятно, мог бы найти способ найти их в одной из бесплатных словарных баз данных, но собственных существительных (например, названий больниц) нет в словаре.

Итак, в моем приложении , У меня есть список всех префектур, городов и больниц Японии. Чтобы отсортировать эти списки, что является обязательным требованием, мне нужен соответствующий список каждого из этих имен в фонетической форме (кана).

Я не могу придумать ничего, кроме как заплатить кому-то, кто свободно владеет японским (я ' м только так себе) вручную расшифровать их. Прежде чем я это сделаю:

Возможно ли, что я полностью в огне, и на самом деле есть какой-то способ выполнить эту сортировку без создания моих собственных сопоставлений слов кандзи с фонетическим чтением, которые я как-то упустил?
Есть ли общедоступная карта названий префектур / городов, от правительства что ли? Это уменьшило бы ручное сопоставление, которое мне нужно было бы делать, только до названий больниц.
Есть ли у кого-нибудь другие советы, как решить эту проблему? Подойдет любой язык программирования - я работаю с Ruby on Rails, но я был бы счастлив, если бы мог просто написать программу, которая принимала бы ввод кандзи (скажем, 40 000 собственных существительных), а затем выводила бы фонетические представления в виде данных, которые я мог бы импортировать в мое приложение Rails.

宜しくお願いします。

17

sorting unicode localization

задан Cœur 2 November 2018 в 11:59

0 ответов

Другие вопросы по тегам:

sorting unicode localization

Можно ли программно сортировать японские слова кандзи?

0 ответов

Похожие вопросы: