Я работаю над проектом по автоматической обработке отсканированных счетов. Чтобы получить лучший результат для движка OCR, я хотел бы сначала удалить шум с изображений. Помимо царапин, я также хотел бы удалить все, что было добавлено в документ после его печати. Многие счета, например. были отмечены галочкой, и иногда из-за этого часть счета становится нечитаемой для OCR.
Например, посмотрите это изображение. Описание второго пункта не будет читаться, и я бы хотел убрать такой "шум".
Так как я могу удалить такие области, написанные от руки, и при этом сохранить высокое качество печатного текста под ними?