5
ответов

Ruby: Чтение файлов PDF

Я ищу быстрый и надежный способ читать/анализировать большие файлы PDF в Ruby (на Linux и OSX). До сих пор я нашел довольно старый и простой инструментарий PDF (pdftotext-обертка) и читателя PDF...
вопрос задан: 25 April 2009 00:09
0
ответов

Странные пробелы при анализе PDF

Мне нужно проанализировать PDF-документ. Я уже реализовал синтаксический анализатор и использовал библиотеку iText, и до сих пор она работала без проблем. Но нет, мне нужно разобрать другой документ, который становится очень...
вопрос задан: 13 August 2012 06:49
0
ответов

Разбор PDF без объекта /Root с помощью PDFMiner

Я пытаюсь извлечь текст из большого количества PDF-файлов, используя привязки Python PDFMiner. Модуль, который я написал, работает для многих PDF-файлов, но я получаю эту загадочную ошибку для подмножества PDF-файлов :ipython...
вопрос задан: 13 July 2012 21:24
0
ответов

Как найти пустую страницу в pdf-файле

Я не могу обнаружить пустую страницу в pdf-файле. Я искал его в Интернете, но не нашел хорошего решения. Используя Itextsharp, я пробовал с размером страницы, Xobjects. Но они не дают точного результата. ...
вопрос задан: 10 June 2012 13:15
0
ответов

Анализ файлов PDF в Hadoop Map Reduce

Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...
вопрос задан: 24 February 2012 08:41
0
ответов

PDF Cross Reference Streams

I ' m разрабатываю парсер / писатель PDF, но я застрял в создании потоков перекрестных ссылок. Моя программа читает этот файл, затем удаляет его линеаризацию и распаковывает все объекты в потоках объектов. ...
вопрос задан: 30 December 2010 10:12