Извлечение отображает от PDF без передискретизации в Python?

Как можно было бы извлечь все изображения из документа PDF в родном разрешении и формате? (Значение tiff извлечения как tiff, jpeg как jpeg, и т.д. и не передискретизируя). Расположение неважно, я не забочусь, было исходное изображение, расположен на странице.

Я использую python 2.7, но могу использовать 3.x при необходимости.

61
задан matt wilkie 11 December 2015 в 21:43
поделиться

2 ответа

Часто в PDF-файлах изображение просто сохраняется как есть. Например, PDF-файл со вставленным файлом jpg будет иметь диапазон байтов где-то посередине, который при извлечении является допустимым файлом jpg. Вы можете использовать это для очень простого извлечения байтовых диапазонов из PDF. Я писал об этом некоторое время назад в примере кода: Извлечение JPG из PDF .

31
ответ дан 24 November 2019 в 17:06
поделиться

Libpoppler поставляется с инструмент под названием «pdfimages», который делает именно это.

(В системах Ubuntu он находится в пакете poppler-utils)

http://poppler.freedesktop.org/

http://en.wikipedia.org/wiki/Pdfiimages

Исполняемые файлы Windows: http://blog.alivate.com.au/poppler-windows/

14
ответ дан 24 November 2019 в 17:06
поделиться
Другие вопросы по тегам:

Похожие вопросы: