PDFBox :работает с очень большими файлами PDF.

Я работаю с некоторыми очень большими PDF-файлами, некоторые из которых имеют размер более 7 ГБ. PDF-файлы содержат до 20 000 страниц и множество полноцветных изображений. Я хотел бы использовать PDFBox для работы с PDF-файлами, но из-за размера я получаю ошибку OutOfMemoryError, когда пытаюсь открыть PDF-файлы.

Я работаю с версией pdfbox -app -1.6.0, в Windows 7 с использованием Intellij, java 6.

Сначала я попытался написать простую программу, которая просто открывала PDF-файл в PDDocument и копировала каждую страницу в другой PDDocument :http://ideone.com/arKhB

. Затем я попытался использовать пример PDFBox CopyDoc .

В обоих примерах не хватает памяти.

Я предполагаю, что это связано с тем, что PDFBox пытается прочитать весь документ в памяти. Есть ли способ, чтобы он открывал только 1 страницу за раз? Я знаю, что обработка будет медленнее, но в данный момент я ничего не могу обработать.

9
задан Pengo 2 July 2012 в 22:06
поделиться