Как работает определение языка?

Я некоторое время задавался вопросом, как Google translate (или, возможно, гипотетический переводчик) определяет язык по строке, введенной в поле "from". Я думал об этом, и единственное, что я могу придумать, - это поиск слов, уникальных для языка, во входной строке. Другой способ - проверить формирование предложения или другую семантику в дополнение к ключевым словам. Но это кажется очень сложной задачей, учитывая разные языки и их семантику. Я провел небольшое исследование, чтобы обнаружить, что существуют способы использования n-граммовых последовательностей и некоторых статистических моделей для определения языка. Был бы признателен за ответ на высоком уровне.

12
задан Dr. belisarius 6 October 2011 в 05:41
поделиться