Как я могу извлечь изображения из файла PDF? [закрытый]

Question

Как я могу извлечь изображения из файла PDF? [закрытый]

20

pdf perl php

задан brian d foy 21 September 2010 в 12:09

3 ответа

Относительно Perl Вы проверили CPAN?

PDF:: GetImages - получает изображения из документа
PDF PDF:: OCR - вытаскивает ocr и изображения из файла
PDF PDF:: OCR2 - извлекает весь текст и все ocr изображения от pdf

11

ответ дан 30 November 2019 в 00:09

pdfimages хорош, поскольку он не повторно кодирует, но только извлекает jpegs. Но существует ошибка:

pdfimages прибывает из пакета "poppler-utils" или из большего "xpdf-utils". По крайней мере, в Ubuntu "poppler-utils" уже прибывает предварительно установленный. pdfimages в poppler-utils 10.0.3 (Бойкая Ubuntu 9.04) все еще не реагирует на опцию "-j" для извлечения ".jpg". Это всегда извлекает ".ppm".

Как обходное решение можно заменить "poppler-utils" "xpdf-utils": $ sudo склонный - получают xpdf-utils

установки с наилучшими пожеланиями,

+++ Oliver

2

ответ дан 30 November 2019 в 00:09

Другие вопросы по тегам:

pdf perl php

Похожие вопросы:

score 23 · Accepted Answer

pdfimages делает просто это. Это, часть poppler-utils и xpdf-utils пакетов.

Из страницы справочника:

Pdfimages сохраняет образы из файла переносимого формата документа (PDF) как Портативная Пиксельная карта (PPM), Портативный Битовый массив (PBM) или файлы JPEG.

Pdfimages читает файл PDF, сканирует одну или несколько страниц, файла PDF, и пишет один PPM, PBM или файл JPEG для каждого изображения, image-root-nnn.xxx, где nnn является номером изображения, и xxx является типом изображения (.ppm, .pbm, .jpg).

NB: pdfimages извлекает необработанные данные изображения из файла PDF, не выполняя дополнительных преобразований. Любое вращение, отсечение, цветная инверсия, и т.д. сделанная потоком содержания PDF, проигнорированы.