Действительно ли возможно ограничить набор символов, которые tesseract ищет (например, поиск только букв a-z)? Это улучшило бы мои результаты значительно.
Создайте файл конфигурации (например, «письма») в каталоге tessdata / configs - обычно / usr / share / tesseract / tessdata / configs
или
/ usr / share / tesseract-ocr / tessdata / configs
И добавьте эту строку в файл конфигурации:
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz
... или, может быть, [az] работает ..не знаю: -)
Затем вызовите tesseract, подобный этому:
tesseract input.tif output nobatch letters
Это ограничит tesseract, чтобы распознавать только требуемые символы