Я использую tesseract для распознавания текста, в основном для счетов. Однако tesseract требует указать язык перед началом обработки файла.
Я думал, что собираюсь выполнить ocr на основе заранее определенного языка по умолчанию. Затем я хотел бы использовать полученный текст, чтобы проверить, какой язык используется. Если это не язык по умолчанию, я обрабатываю его снова, чтобы получить лучший результат от tesseract.
Но как я могу реализовать алгоритм определения языка? Есть ли библиотека C ++, которую я мог бы использовать?