Недавно я обнаружил, к своему удивлению (никогда особо не задумывался об этом раньше), что машинная сортировка японских имен собственных, очевидно, невозможна.
Я работаю над приложение, которое должно позволять пользователю выбирать больницу из интерфейса с 3 меню. Первое меню - это префектура, второе - название города, а третье - больница. Каждое меню должно быть отсортировано, как и следовало ожидать, чтобы пользователь мог найти в меню то, что ему нужно.
Позвольте мне описать то, что я нашел, в качестве преамбулы к моему вопросу:
Ожидаемый порядок сортировки японских слов основан на их произношении. Кандзи не имеют внутреннего порядка (используются десятки тысяч кандзи), но в японских фонетических слоговых словах есть порядок: あ 、 い 、 う 、 え 、 お 、 か き 、 く 、 け 、 こ .. ... и далее для пятидесяти традиционных различных звуков (некоторые из которых являются устаревшими в современном японском языке). Такой порядок сортировки называется 五十 音 順 (годзю в джун, или «порядок 50 звуков»).
Следовательно, слова кандзи должны быть отсортированы в том же порядке, в каком они были бы написаны хираганой. (Вы можете представить любое слово кандзи в фонетической хирагане на японском языке.)
Кикер: не существует канонического способа определить произношение данного слова, написанного на кандзи. Никогда не знаешь. У некоторых кандзи есть десять или более различных произношений, в зависимости от слова. В словаре есть много общих слов, и я, вероятно, мог бы найти способ найти их в одной из бесплатных словарных баз данных, но собственных существительных (например, названий больниц) нет в словаре.
Итак, в моем приложении , У меня есть список всех префектур, городов и больниц Японии. Чтобы отсортировать эти списки, что является обязательным требованием, мне нужен соответствующий список каждого из этих имен в фонетической форме (кана).
Я не могу придумать ничего, кроме как заплатить кому-то, кто свободно владеет японским (я ' м только так себе) вручную расшифровать их. Прежде чем я это сделаю:
Возможно ли, что я полностью в огне, и на самом деле есть какой-то способ выполнить эту сортировку без создания моих собственных сопоставлений слов кандзи с фонетическим чтением, которые я как-то упустил?
Есть ли общедоступная карта названий префектур / городов, от правительства что ли? Это уменьшило бы ручное сопоставление, которое мне нужно было бы делать, только до названий больниц.
Есть ли у кого-нибудь другие советы, как решить эту проблему? Подойдет любой язык программирования - я работаю с Ruby on Rails, но я был бы счастлив, если бы мог просто написать программу, которая принимала бы ввод кандзи (скажем, 40 000 собственных существительных), а затем выводила бы фонетические представления в виде данных, которые я мог бы импортировать в мое приложение Rails.
宜 し く お 願 い し ま す。