Python Tesseract не может распознать этот шрифт

Question

Python Tesseract не может распознать этот шрифт

Некоторый инструмент Flash, который может преобразовать файл PowerPoint в Flash, мог быть полезным. Доля слайда также полезна. Для меня я возьму что-то как PPT2Flash Pro или подобные вещи.

10

python image-processing image-manipulation ocr tesseract

задан Ryan 4 June 2019 в 07:03

4 ответа

В последнее время в группе обсуждения tesseract OCR было много трафика по этой теме. Вам нужно будет использовать "язык" только чисел. Многие люди раньше тренировали двигатель таким образом. Похоже, вы пытаетесь перехитрить схему защиты данных с помощью captcha ... tsk, tsk.

1

ответ дан 3 December 2019 в 20:42

Похоже на шрифт Eurostile. Да, вам придется потренироваться с каждым шрифтом, который используется в ваших исходных изображениях.

0

ответ дан 3 December 2019 в 20:42

Тренироваться сложно, и это не то, что здесь действительно нужно. Различить O и 0 и l и 1 будет сложно, независимо от сценария. Ограничение OCR выбором только числовых цифр значительно упрощает задачу, если это позволяет контекст.

Мой интерес к tesseract заключается в обработке большого количества чисел из старых правительственных отчетов. В этом случае и в рассматриваемом случае набор символов будет примерно таким: «0123456789». Следуя комментарию в старой (sourceforge) группе новостей для tesseract, написанному eric_taj 21 марта 2007 г., вы можете изменить Templates-> IndexFor и Templates-> ClassIdFor в classify / intproto.cpp, чтобы скрыть недопустимые символы. . Я немного изменил этот подход, чтобы читать разрешенный набор символов во время выполнения в переменной среды, чтобы я мог настраивать разрешенный набор на лету.

5

ответ дан 3 December 2019 в 20:42

Другие вопросы по тегам:

python image-processing image-manipulation ocr tesseract

Python Tesseract не может распознать этот шрифт

4 ответа

Похожие вопросы: