То, в чем я нуждаюсь, должно считать PDF, сделать некоторые преобразования (генерируйте закладки TOC), и запишите его обратно.
Я нашел этот http://hackage.haskell.org/package/HPDF, но это только упоминает, что генерировало PDF, не парсинг (хотя я, возможно, пропустил его),
Haskell выбран просто для (сам) образовательные цели.
Есть несколько инструментов для работы с PDF-документами, хотя они, похоже, смещены в сторону генерации, а не синтаксического анализа:
Pandoc - отличная библиотека перекрестной разметки, но не поддерживает синтаксический анализ PDF (он поддерживает создание PDF из различных форматов).
Также есть:
Я не уверен, что у нас есть хороший инструмент для синтаксического анализа.
Также в качестве обучающего упражнения я начал библиотеку синтаксического анализа PDF на Haskell, но она неполная и немного томится из-за недостатка внимания. Я был бы счастлив поделиться им с вами и хотел бы получить отзывы, улучшения и т. Д. В настоящее время он не размещен на взломе, но если вы заинтересованы в работе с неполной реализацией, дайте мне знать, и я спрошу некоторых коллег за советом, как поднять его там.
Вот привязка haskell к частям xpdf: http: //hackage.haskell .org / package / pdf2line