Это то, над чем я работаю, и мне бы хотелось услышать мнение умных людей из StackOverflow.
Я пытаюсь восстановить текст на основе объединения различных плохих версий одной и той же текстовой страницы. В основном это можно использовать для объединения разных результатов OCR в один с большей точностью, чем любой из них по отдельности.
Я начинаю со словаря из 600 000 английских слов, это почти все, включая юридические и медицинские термины и общеупотребительные имена. Это у меня уже есть.
Тогда у меня есть 4 версии образца текста.
Что-то вроде этого:
$text[0] = 'Fir5t text sample is thisline';
$text[1] = 'Fir5t text Smplee is this line.';
$text[2] = 'First te*t sample i this l1ne.';
$text[3] = 'F i r st text s ample is this line.';
Я пытался объединить вышеперечисленное, чтобы получить результат, который выглядит примерно так:
$text = 'First text sample is this line.';
Не говорите мне, что это невозможно, потому что это определенно не так, просто очень сложно.
Я был бы очень признателен за любые идеи по этому поводу.
Спасибо!
Мои текущие мысли:
Простая проверка слов по словарю не сработает, поскольку некоторые пробелы находятся в неправильном месте, и иногда слово не может быть в словаре.
Основная проблема заключается в восстановлении нарушенных интервалов. Как только это будет исправлено, тогда можно будет выбрать наиболее часто встречающееся словарное слово, если оно существует, или наиболее часто встречающееся не словарное слово.