Python Tesseract не может распознать этот шрифт

Некоторый инструмент Flash, который может преобразовать файл PowerPoint в Flash, мог быть полезным. Доля слайда также полезна. Для меня я возьму что-то как PPT2Flash Pro или подобные вещи.

10
задан Ryan 4 June 2019 в 07:03
поделиться

4 ответа

Просто обучите движок вводить 10 цифр и "." . Это должно сработать. И убедитесь, что вы изменили изображение на оттенки серого перед его распознаванием.

11
ответ дан 3 December 2019 в 20:42
поделиться

В последнее время в группе обсуждения tesseract OCR было много трафика по этой теме. Вам нужно будет использовать "язык" только чисел. Многие люди раньше тренировали двигатель таким образом. Похоже, вы пытаетесь перехитрить схему защиты данных с помощью captcha ... tsk, tsk.

1
ответ дан 3 December 2019 в 20:42
поделиться

Похоже на шрифт Eurostile. Да, вам придется потренироваться с каждым шрифтом, который используется в ваших исходных изображениях.

0
ответ дан 3 December 2019 в 20:42
поделиться

Тренироваться сложно, и это не то, что здесь действительно нужно. Различить O и 0 и l и 1 будет сложно, независимо от сценария. Ограничение OCR выбором только числовых цифр значительно упрощает задачу, если это позволяет контекст.

Мой интерес к tesseract заключается в обработке большого количества чисел из старых правительственных отчетов. В этом случае и в рассматриваемом случае набор символов будет примерно таким: «0123456789». Следуя комментарию в старой (sourceforge) группе новостей для tesseract, написанному eric_taj 21 марта 2007 г., вы можете изменить Templates-> IndexFor и Templates-> ClassIdFor в classify / intproto.cpp, чтобы скрыть недопустимые символы. . Я немного изменил этот подход, чтобы читать разрешенный набор символов во время выполнения в переменной среды, чтобы я мог настраивать разрешенный набор на лету.

5
ответ дан 3 December 2019 в 20:42
поделиться
Другие вопросы по тегам:

Похожие вопросы: