MySQL - предложения по добавлению данных в существующее поле / запись?

Я пытаюсь воссоздать абзацы и отступы из вывода изображения с оптическим распознаванием символов текст, например:

Вход (представьте, что это изображение, не набранное):

enter image description here

Выход (с несколькими ошибками):

enter image description here

Как видите, нет разрывов абзацев или отступы сохраняются.

Используя Python, я пробовал такой подход, но он не работает (слишком часто дает сбой):

Код :

def smart_format(text):
  textList = text.split('\n')
  temp = ''

  averageLL = sum([len(line) for line in textList]) / len(textList)

  for line in textList:
    if (line.strip().endswith('!') or line.strip().endswith('.') or line.strip().endswith('?')) and not line.strip().endswith('-'):
      if averageLL - len(line) > 7:
        temp += '{{ paragraph }}' + line + '\n'
      else:
        temp += line + '\n'
    else:
      temp += line + '\n'

  return temp.replace(' -\n', '').replace('-\n', '').replace(' \n', '').replace('\n', ' ').replace('{{ paragraph }}', '\n\n      ')

Есть ли у кого-нибудь предложения, как я могу воссоздать этот макет? Я работаю со старыми книгами, поэтому я надеялся перепечатать их с помощью LaTeX, поскольку для этого довольно просто создать скрипт Python.

Спасибо!

9
задан dkretz 7 May 2011 в 18:22
поделиться