Распознавание языка краткого текста? [закрытый]

20
задан Matthieu M. 8 March 2017 в 09:03
поделиться

5 ответов

Я бы использовал проект guess-language .

Изменить: Теперь в Bitbucket

15
ответ дан 30 November 2019 в 00:43
поделиться
4
ответ дан 30 November 2019 в 00:43
поделиться

Вы можете попробовать Google AJAX Language API , если вы не против использовать веб-службу для выполнения вашей работы за вас.

4
ответ дан 30 November 2019 в 00:43
поделиться

Если рекомендация Neos также непрактична, я бы попробовал что-то вроде этого:

Во многих языках есть некоторые ключевые слова, которые содержатся во многих предложениях и часто не встречается на других языках.

Пример: «The» по-английски, «der», «die», «das» по-немецки, ....

Найдите такие слова и попробуйте найти их в своих текстах. Наконец, он может быть немного нечетким - например, когда вы найдете «the» и «der» - это может быть немецкий текст, содержащий некоторые английские предложения. По крайней мере, имея достаточное количество слов из ваших целевых языков, вы можете добиться высокой посещаемости.

1
ответ дан 30 November 2019 в 00:43
поделиться

В общем, вы смотрите на идентификацию nGram. Поскольку это вопрос о Python, вы можете взглянуть на http://github.com/koblas/ngramj-python , который представляет собой чистый порт Python для библиотеки java ngram (еще один проект с открытым исходным кодом).

Документация отсутствует, но она действительно очень точная.

2
ответ дан 30 November 2019 в 00:43
поделиться
Другие вопросы по тегам:

Похожие вопросы: