Распознавание языка краткого текста? [закрытый]

Question

Распознавание языка краткого текста? [закрытый]

20

python nlp

задан Matthieu M. 8 March 2017 в 09:03

5 ответов

Вы заглядывали на http://ling.unizd.hr/~dcavar/LID/ и http://en.wikipedia.org/wiki/Language_identification ?

4

ответ дан 30 November 2019 в 00:43

Вы можете попробовать Google AJAX Language API , если вы не против использовать веб-службу для выполнения вашей работы за вас.

4

ответ дан 30 November 2019 в 00:43

Если рекомендация Neos также непрактична, я бы попробовал что-то вроде этого:

Во многих языках есть некоторые ключевые слова, которые содержатся во многих предложениях и часто не встречается на других языках.

Пример: «The» по-английски, «der», «die», «das» по-немецки, ....

Найдите такие слова и попробуйте найти их в своих текстах. Наконец, он может быть немного нечетким - например, когда вы найдете «the» и «der» - это может быть немецкий текст, содержащий некоторые английские предложения. По крайней мере, имея достаточное количество слов из ваших целевых языков, вы можете добиться высокой посещаемости.

1

ответ дан 30 November 2019 в 00:43

В общем, вы смотрите на идентификацию nGram. Поскольку это вопрос о Python, вы можете взглянуть на http://github.com/koblas/ngramj-python , который представляет собой чистый порт Python для библиотеки java ngram (еще один проект с открытым исходным кодом).

Документация отсутствует, но она действительно очень точная.

2

ответ дан 30 November 2019 в 00:43

Другие вопросы по тегам:

python nlp

Распознавание языка краткого текста? [закрытый]

5 ответов

Похожие вопросы: