pyPdf игнорирует новые строки в файле PDF

Question

pyPdf игнорирует новые строки в файле PDF

Я пытаюсь извлечь каждую страницу PDF-файла в виде строки:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Но этот скрипт игнорирует символы новой строки , оставив меня с беспорядочными строками, такими как информация о человеке, которая из-за имени, идентификационного номера, знака или описания(т. е. это должно читаться как идентификационный номер, а не идентификационный номер. ] ).

Вот примертипа PDF, который я пытаюсь разобрать.

5

pdf pypdf python string unicode

задан Joe Mornin 13 June 2012 в 14:43

0 ответов

Другие вопросы по тегам:

pdf pypdf python string unicode

pyPdf игнорирует новые строки в файле PDF

0 ответов

Похожие вопросы: