определение языка

Я использую tesseract для распознавания текста, в основном для счетов. Однако tesseract требует указать язык перед началом обработки файла.

Я думал, что собираюсь выполнить ocr на основе заранее определенного языка по умолчанию. Затем я хотел бы использовать полученный текст, чтобы проверить, какой язык используется. Если это не язык по умолчанию, я обрабатываю его снова, чтобы получить лучший результат от tesseract.

Но как я могу реализовать алгоритм определения языка? Есть ли библиотека C ++, которую я мог бы использовать?

5
задан Martin Thoma 25 January 2018 в 17:36
поделиться