Как я могу извлечь изображения из файла PDF? [закрытый]

20
задан brian d foy 21 September 2010 в 12:09
поделиться

3 ответа

pdfimages делает просто это. Это, часть poppler-utils и xpdf-utils пакетов.

Из страницы справочника:

Pdfimages сохраняет образы из файла переносимого формата документа (PDF) как Портативная Пиксельная карта (PPM), Портативный Битовый массив (PBM) или файлы JPEG.

Pdfimages читает файл PDF, сканирует одну или несколько страниц, файла PDF, и пишет один PPM, PBM или файл JPEG для каждого изображения, image-root-nnn.xxx, где nnn является номером изображения, и xxx является типом изображения (.ppm, .pbm, .jpg).

NB: pdfimages извлекает необработанные данные изображения из файла PDF, не выполняя дополнительных преобразований. Любое вращение, отсечение, цветная инверсия, и т.д. сделанная потоком содержания PDF, проигнорированы.

23
ответ дан 30 November 2019 в 00:09
поделиться

Относительно Perl Вы проверили CPAN?

  • PDF:: GetImages - получает изображения из документа
  • PDF PDF:: OCR - вытаскивает ocr и изображения из файла
  • PDF PDF:: OCR2 - извлекает весь текст и все ocr изображения от pdf
11
ответ дан 30 November 2019 в 00:09
поделиться

pdfimages хорош, поскольку он не повторно кодирует, но только извлекает jpegs. Но существует ошибка:

pdfimages прибывает из пакета "poppler-utils" или из большего "xpdf-utils". По крайней мере, в Ubuntu "poppler-utils" уже прибывает предварительно установленный. pdfimages в poppler-utils 10.0.3 (Бойкая Ubuntu 9.04) все еще не реагирует на опцию "-j" для извлечения ".jpg". Это всегда извлекает ".ppm".

Как обходное решение можно заменить "poppler-utils" "xpdf-utils": $ sudo склонный - получают xpdf-utils

установки с наилучшими пожеланиями,

+++ Oliver

2
ответ дан 30 November 2019 в 00:09
поделиться
Другие вопросы по тегам:

Похожие вопросы: