Некоторый инструмент Flash, который может преобразовать файл PowerPoint в Flash, мог быть полезным. Доля слайда также полезна. Для меня я возьму что-то как PPT2Flash Pro или подобные вещи.
Просто обучите движок вводить 10 цифр и "." . Это должно сработать. И убедитесь, что вы изменили изображение на оттенки серого перед его распознаванием.
В последнее время в группе обсуждения tesseract OCR было много трафика по этой теме. Вам нужно будет использовать "язык" только чисел. Многие люди раньше тренировали двигатель таким образом. Похоже, вы пытаетесь перехитрить схему защиты данных с помощью captcha ... tsk, tsk.
Похоже на шрифт Eurostile. Да, вам придется потренироваться с каждым шрифтом, который используется в ваших исходных изображениях.
Тренироваться сложно, и это не то, что здесь действительно нужно. Различить O и 0 и l и 1 будет сложно, независимо от сценария. Ограничение OCR выбором только числовых цифр значительно упрощает задачу, если это позволяет контекст.
Мой интерес к tesseract заключается в обработке большого количества чисел из старых правительственных отчетов. В этом случае и в рассматриваемом случае набор символов будет примерно таким: «0123456789». Следуя комментарию в старой (sourceforge) группе новостей для tesseract, написанному eric_taj 21 марта 2007 г., вы можете изменить Templates-> IndexFor и Templates-> ClassIdFor в classify / intproto.cpp, чтобы скрыть недопустимые символы. . Я немного изменил этот подход, чтобы читать разрешенный набор символов во время выполнения в переменной среды, чтобы я мог настраивать разрешенный набор на лету.