Я использую tesseract для OCR и заметил, что иногда возникают ошибки сегментации и символы, которые "очевидно" принадлежат друг другу, разбиваются на отдельные строки.
На основе списка символов и их ограничивающих рамок, найденных в одной текстовой строке, и предварительного результата распознавания, который предполагает, какие из этих символов принадлежат одному слову, какие алгоритмы я могу применить для исправления ошибок сегментации или проверки результата?
Вот доступные данные:
List<Word> words;
for(Word word : words){
for(Char c : word.getChars()){
char ch = c.getValue();
Rectangle rect = c.getRect();
}
}