Из FAQ Tesseract:
Как распознать только цифры?
В версии 2.03 и выше:
Используйте
TessBaseAPI :: SetVariable ("tessedit_char_whitelist", "0123456789");
до вызова функции Init или поместите это в текстовый файл с именем
tessdata / configs / digits
:tessedit_char_whitelist 0123456789
, а затем ваша командная строка станет:
tesseract image.tif outputbase nobatch digits
Предупреждение: До старые и новые переменные конфигурации объединяются, вы должны также иметь параметр
nobatch
.
Но я думаю, поскольку он был разработан для печатного, а не рукописного текста, точность может пострадать даже только для цифр.