Как можно было бы извлечь все изображения из документа PDF в родном разрешении и формате? (Значение tiff извлечения как tiff, jpeg как jpeg, и т.д. и не передискретизируя). Расположение неважно, я не забочусь, было исходное изображение, расположен на странице.
Я использую python 2.7, но могу использовать 3.x при необходимости.
Часто в PDF-файлах изображение просто сохраняется как есть. Например, PDF-файл со вставленным файлом jpg будет иметь диапазон байтов где-то посередине, который при извлечении является допустимым файлом jpg. Вы можете использовать это для очень простого извлечения байтовых диапазонов из PDF. Я писал об этом некоторое время назад в примере кода: Извлечение JPG из PDF .
Libpoppler поставляется с инструмент под названием «pdfimages», который делает именно это.
(В системах Ubuntu он находится в пакете poppler-utils)
http://poppler.freedesktop.org/
http://en.wikipedia.org/wiki/Pdfiimages
Исполняемые файлы Windows: http://blog.alivate.com.au/poppler-windows/