Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные из этотPDF-файл.
import pyPdf
def get_text(path):
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
content = ""
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Однако вывод , который я получаю, лишен пробелов между большинством слов. Это затрудняет обработку текста на естественном языке (здесь моя конечная цель).
Кроме того, «фи» в слове «палец» постоянно интерпретируется как нечто другое. Это довольно проблематично, так как эта статья посвящена спонтанным движениям пальцев...
Кто-нибудь знает, почему это может происходить? Я даже не знаю с чего начать!