У меня есть форма, которая позволяет пользовательским входным текстовым отрывкам. Таким образом, как может выяснить язык введенного текста?
Конкретно эти языки на данный момент:
Арабский язык: هذه هي بعض النصوص العربية
Китайский язык: 这是一些阿拉伯文字
Японский язык: これは、いくつかのアラビア語のテキストです
[Редактирование] обнаружение имеет работу над текстом, который получен через API также (никакой включенный браузер)
Вы можете определить, какие символы взяты из арабского, китайского или японского разделов карты Unicode.
Если вы посмотрите список в Википедии , вы увидите, что у каждого из этих языков есть множество разделов карты. Но вы не делаете перевод, поэтому вам не нужно беспокоиться о каждом последнем глифе.
Например, ваш китайский текст начинается (в шестнадцатеричном формате) 0x8FD9 0x662F 0x4E00 - и все они находятся в китайском разделе «Унифицированные иероглифы CJK». Вот несколько диапазонов для начала:
Арабский (0600–06FF)
Японский
Китайский
(Я получил шестнадцатеричное значение для вашего китайского языка с помощью конвертера китайского языка в Unicode .)
Вы можете использовать Google Ajax API для определения языка фрагмента текста.
Предположительно угадывание языка пользователя означает отображение ответов на правильном языке. Как насчет проверки настроек браузера для предпочтительных языков? Получите это из заголовка HTTP Accept-Language . См. Раздел 14.4 здесь .