image processing to improve tesseract OCR accuracy

Я использовал tesseract для преобразования документов в текст. Качество документов варьируется в широких пределах, и я ищу советы о том, какая обработка изображений может улучшить результаты. Я заметил, что текст с высокой пикселизацией - например, созданный факсимильными аппаратами - особенно трудно обрабатывается тессерактом - предположительно, все эти неровные края символов сбивают алгоритмы распознавания формы.

Какие методы обработки изображений могли бы повысить точность? Я использовал гауссово размытие для сглаживания пикселированных изображений и увидел небольшое улучшение, но я надеюсь, что есть более специфическая техника, которая даст лучшие результаты. Скажем, фильтр, настроенный на черно-белые изображения, который сгладит неровные края, а затем фильтр, который увеличит контрастность, чтобы сделать персонажей более четкими.

Какие-нибудь общие советы для новичков в обработке изображений?

127
задан JAL 20 December 2016 в 15:09
поделиться