Пробелы исчезли из извлечения PDF и странная интерпретация слов

Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные из этотPDF-файл.

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

Однако вывод , который я получаю, лишен пробелов между большинством слов. Это затрудняет обработку текста на естественном языке (здесь моя конечная цель).

Кроме того, «фи» в слове «палец» постоянно интерпретируется как нечто другое. Это довольно проблематично, так как эта статья посвящена спонтанным движениям пальцев...

Кто-нибудь знает, почему это может происходить? Я даже не знаю с чего начать!

9
задан dda 19 June 2012 в 03:08
поделиться