Я бы использовал проект guess-language .
Изменить: Теперь в Bitbucket
Вы заглядывали на http://ling.unizd.hr/~dcavar/LID/ и http://en.wikipedia.org/wiki/Language_identification ?
Вы можете попробовать Google AJAX Language API , если вы не против использовать веб-службу для выполнения вашей работы за вас.
Если рекомендация Neos также непрактична, я бы попробовал что-то вроде этого:
Во многих языках есть некоторые ключевые слова, которые содержатся во многих предложениях и часто не встречается на других языках.
Пример: «The» по-английски, «der», «die», «das» по-немецки, ....
Найдите такие слова и попробуйте найти их в своих текстах. Наконец, он может быть немного нечетким - например, когда вы найдете «the» и «der» - это может быть немецкий текст, содержащий некоторые английские предложения. По крайней мере, имея достаточное количество слов из ваших целевых языков, вы можете добиться высокой посещаемости.
В общем, вы смотрите на идентификацию nGram. Поскольку это вопрос о Python, вы можете взглянуть на http://github.com/koblas/ngramj-python , который представляет собой чистый порт Python для библиотеки java ngram (еще один проект с открытым исходным кодом).
Документация отсутствует, но она действительно очень точная.