pdf-parsing - список вопросов по программированию pdf-parsing

5

ответов

Ruby: Чтение файлов PDF

Я ищу быстрый и надежный способ читать/анализировать большие файлы PDF в Ruby (на Linux и OSX). До сих пор я нашел довольно старый и простой инструментарий PDF (pdftotext-обертка) и читателя PDF...

вопрос задан: 25 April 2009 00:09

0

ответов

Странные пробелы при анализе PDF

Мне нужно проанализировать PDF-документ. Я уже реализовал синтаксический анализатор и использовал библиотеку iText, и до сих пор она работала без проблем. Но нет, мне нужно разобрать другой документ, который становится очень...

itext java pdf pdf-parsing whitespace

вопрос задан: 13 August 2012 06:49

0

ответов

Разбор PDF без объекта /Root с помощью PDFMiner

Я пытаюсь извлечь текст из большого количества PDF-файлов, используя привязки Python PDFMiner. Модуль, который я написал, работает для многих PDF-файлов, но я получаю эту загадочную ошибку для подмножества PDF-файлов :ipython...

pdf-parsing pdf-manipulation pypdf python

вопрос задан: 13 July 2012 21:24

0

ответов

Как найти пустую страницу в pdf-файле

Я не могу обнаружить пустую страницу в pdf-файле. Я искал его в Интернете, но не нашел хорошего решения. Используя Itextsharp, я пробовал с размером страницы, Xobjects. Но они не дают точного результата. ...

.net itextsharp pdf pdf-parsing c#

вопрос задан: 10 June 2012 13:15

0

ответов

Анализ файлов PDF в Hadoop Map Reduce

Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...

pdf hadoop mapreduce pdf-parsing

вопрос задан: 24 February 2012 08:41

0

ответов

PDF Cross Reference Streams

I ' m разрабатываю парсер / писатель PDF, но я застрял в создании потоков перекрестных ссылок. Моя программа читает этот файл, затем удаляет его линеаризацию и распаковывает все объекты в потоках объектов. ...

pdf pdf-generation pdf-parsing

вопрос задан: 30 December 2010 10:12