Можно ли программно сортировать японские слова кандзи?

Недавно я обнаружил, к своему удивлению (никогда особо не задумывался об этом раньше), что машинная сортировка японских имен собственных, очевидно, невозможна.

Я работаю над приложение, которое должно позволять пользователю выбирать больницу из интерфейса с 3 меню. Первое меню - это префектура, второе - название города, а третье - больница. Каждое меню должно быть отсортировано, как и следовало ожидать, чтобы пользователь мог найти в меню то, что ему нужно.

Позвольте мне описать то, что я нашел, в качестве преамбулы к моему вопросу:

  1. Ожидаемый порядок сортировки японских слов основан на их произношении. Кандзи не имеют внутреннего порядка (используются десятки тысяч кандзи), но в японских фонетических слоговых словах есть порядок: あ 、 い 、 う 、 え 、 お 、 か き 、 く 、 け 、 こ .. ... и далее для пятидесяти традиционных различных звуков (некоторые из которых являются устаревшими в современном японском языке). Такой порядок сортировки называется 五十 音 順 (годзю в джун, или «порядок 50 звуков»).

  2. Следовательно, слова кандзи должны быть отсортированы в том же порядке, в каком они были бы написаны хираганой. (Вы можете представить любое слово кандзи в фонетической хирагане на японском языке.)

  3. Кикер: не существует канонического способа определить произношение данного слова, написанного на кандзи. Никогда не знаешь. У некоторых кандзи есть десять или более различных произношений, в зависимости от слова. В словаре есть много общих слов, и я, вероятно, мог бы найти способ найти их в одной из бесплатных словарных баз данных, но собственных существительных (например, названий больниц) нет в словаре.

Итак, в моем приложении , У меня есть список всех префектур, городов и больниц Японии. Чтобы отсортировать эти списки, что является обязательным требованием, мне нужен соответствующий список каждого из этих имен в фонетической форме (кана).

Я не могу придумать ничего, кроме как заплатить кому-то, кто свободно владеет японским (я ' м только так себе) вручную расшифровать их. Прежде чем я это сделаю:

  • Возможно ли, что я полностью в огне, и на самом деле есть какой-то способ выполнить эту сортировку без создания моих собственных сопоставлений слов кандзи с фонетическим чтением, которые я как-то упустил?

  • Есть ли общедоступная карта названий префектур / городов, от правительства что ли? Это уменьшило бы ручное сопоставление, которое мне нужно было бы делать, только до названий больниц.

  • Есть ли у кого-нибудь другие советы, как решить эту проблему? Подойдет любой язык программирования - я работаю с Ruby on Rails, но я был бы счастлив, если бы мог просто написать программу, которая принимала бы ввод кандзи (скажем, 40 000 собственных существительных), а затем выводила бы фонетические представления в виде данных, которые я мог бы импортировать в мое приложение Rails.

宜 し く お 願 い し ま す。

17
задан Cœur 2 November 2018 в 11:59
поделиться