Как исправить ошибки сегментации OCR с помощью ограничивающих прямоугольников?

Я использую tesseract для OCR и заметил, что иногда возникают ошибки сегментации и символы, которые "очевидно" принадлежат друг другу, разбиваются на отдельные строки.

На основе списка символов и их ограничивающих рамок, найденных в одной текстовой строке, и предварительного результата распознавания, который предполагает, какие из этих символов принадлежат одному слову, какие алгоритмы я могу применить для исправления ошибок сегментации или проверки результата?

Вот доступные данные:

List<Word> words;
for(Word word : words){
    for(Char c : word.getChars()){
        char ch = c.getValue();
        Rectangle rect = c.getRect();
    }
}
5
задан Pedro 18 April 2012 в 14:07
поделиться