Я сделал это с помощью этого регулярного выражения:
\s+(.+\s+)+?<\/imgdir>
Вы можете просто заменить эту находку пустой строкой.
mbtPdfAsm является быстрым, инструментом командной строки с открытым исходным кодом для обработки PDF.
Xpdf также стоит упомянуть, так как это - GPL и записанный в C++. Исходный код хорошо построен из модулей и допускает запись инструментов командной строки.
Это должен быть Python? Моя библиотека CAM чистого Perl:: PDF довольно быстр при добавлении и удалении страниц документа в формате PDF. Это сохраняет развертку для самого конца, если это возможно.
pdfLaTex может сделать большое управление PDF и очень быстр.
я использовал его для некоторого довольно сложного наложения worflows., язык TEX действительно чужд программированию, но легко записать сценарий Python, который генерирует необходимое Латексное расположение и обрабатывает его.