PHP исправляет неверный текст

Это то, над чем я работаю, и мне бы хотелось услышать мнение умных людей из StackOverflow.

Я пытаюсь восстановить текст на основе объединения различных плохих версий одной и той же текстовой страницы. В основном это можно использовать для объединения разных результатов OCR в один с большей точностью, чем любой из них по отдельности.

Я начинаю со словаря из 600 000 английских слов, это почти все, включая юридические и медицинские термины и общеупотребительные имена. Это у меня уже есть.

Тогда у меня есть 4 версии образца текста.

Что-то вроде этого:

$text[0] = 'Fir5t text sample is thisline';
$text[1] = 'Fir5t text Smplee is this line.';
$text[2] = 'First te*t sample i this l1ne.';
$text[3] = 'F i r st text s ample is this line.';

Я пытался объединить вышеперечисленное, чтобы получить результат, который выглядит примерно так:

$text = 'First text sample is this line.';

Не говорите мне, что это невозможно, потому что это определенно не так, просто очень сложно.

Я был бы очень признателен за любые идеи по этому поводу.

Спасибо!

Мои текущие мысли:

Простая проверка слов по словарю не сработает, поскольку некоторые пробелы находятся в неправильном месте, и иногда слово не может быть в словаре.

Основная проблема заключается в восстановлении нарушенных интервалов. Как только это будет исправлено, тогда можно будет выбрать наиболее часто встречающееся словарное слово, если оно существует, или наиболее часто встречающееся не словарное слово.

12
задан Alasdair 15 December 2011 в 10:14
поделиться