Haskell: парсинг PDF

То, в чем я нуждаюсь, должно считать PDF, сделать некоторые преобразования (генерируйте закладки TOC), и запишите его обратно.

Я нашел этот http://hackage.haskell.org/package/HPDF, но это только упоминает, что генерировало PDF, не парсинг (хотя я, возможно, пропустил его),

Haskell выбран просто для (сам) образовательные цели.

10
задан ire_and_curses 5 March 2010 в 18:55
поделиться

3 ответа

Есть несколько инструментов для работы с PDF-документами, хотя они, похоже, смещены в сторону генерации, а не синтаксического анализа:

Pandoc - отличная библиотека перекрестной разметки, но не поддерживает синтаксический анализ PDF (он поддерживает создание PDF из различных форматов).

Также есть:

Я не уверен, что у нас есть хороший инструмент для синтаксического анализа.

5
ответ дан 3 December 2019 в 23:49
поделиться

Также в качестве обучающего упражнения я начал библиотеку синтаксического анализа PDF на Haskell, но она неполная и немного томится из-за недостатка внимания. Я был бы счастлив поделиться им с вами и хотел бы получить отзывы, улучшения и т. Д. В настоящее время он не размещен на взломе, но если вы заинтересованы в работе с неполной реализацией, дайте мне знать, и я спрошу некоторых коллег за советом, как поднять его там.

3
ответ дан 3 December 2019 в 23:49
поделиться

Вот привязка haskell к частям xpdf: http: //hackage.haskell .org / package / pdf2line

2
ответ дан 3 December 2019 в 23:49
поделиться
Другие вопросы по тегам:

Похожие вопросы: