Что является типичным методом для разделения соединенных букв, одним словом, с помощью OCR

Я очень плохо знаком с OCR и почти знаю, что ничто об алгоритмах раньше не распознавало слова. Я просто знакомлюсь к этому.

Кто-либо мог консультировать по вопросам типичного метода, используемого, чтобы распознать и разделить отдельные символы в связанной форме (я имею в виду, одним словом, где все буквы соединены)? Забудьте о почерке, предположив, что буквы соединены вместе с помощью известного шрифта, что лучший метод должен определить каждый отдельный символ, одним словом? Когда символы записаны отдельно нет никакой проблемы, но когда они объединены, мы должны знать, где каждый символ запускается и заканчивается, чтобы перейти к следующему шагу и соответствовать им индивидуально к букве. Там кто-либо - известный алгоритм для этого?

5
задан Meysam 16 August 2013 в 15:33
поделиться

1 ответ

Стандартный термин для этого процесса - «сегментация символов». Сегментация - это термин обработки изображений, обозначающий разбиение изображений на сгруппированные области для распознавания. «Сегментация арабских символов» вызывает множество запросов в Google Scholar , если вы хотите узнать больше.

Я бы посоветовал вам взглянуть на Tesseract - реализацию OCR с открытым исходным кодом , особенно на документы .

Функция , как определено в глоссарии , немного об этом говорит, но здесь содержится тонна информации.

В основном Tesseract решает проблему (из Как работает Tesseract ), просматривая капли (не буквы), а затем объединяя эти капли в слова. Это позволяет избежать описанной вами проблемы и создать новые проблемы.

Для арабского языка (как вы указываете) Тессеракт не работает. Я мало что знаю об этой области, но эта статья , кажется, подразумевает, что динамическое искажение времени (DTW) является полезным методом. Это пытается растянуть слова, чтобы сопоставить их с известными словами, и снова работает в словесном, а не в буквенном пространстве.

3
ответ дан 15 December 2019 в 06:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: