Программное чтение PDFs в [закрытом] C#

Question

Программное чтение PDFs в [закрытом] C#

Я вижу много вопросов и ответов об использовании C# для генерации файлов PDF.
У меня есть связанная, но другая задача.

У меня есть большое количество файлов PDF, уже созданных, и я хотел бы проверить определенные части содержания с Регулярными выражениями (RegExs). Я хочу открыть PDFs in C# и быть в состоянии считать текст в чем-то приближающемся к линейному виду.

Если заголовки, нижние колонтитулы, какие-либо боковые панели, и т.д., пропускаются, или читайте не в порядке, это не имеет значения. Я сразу после такое количество текста основной части, как я могу получить.

Можно ли указать на меня к инструментам, библиотекам, API, и т.д., который позволит мне программно прочитать текст в файлах PDF?

17

c# pdf

задан abelenky 9 March 2010 в 18:43

5 ответов

Я успешно использовал для этой цели две разные библиотеки. Один из них - PDF Box (часть проекта Apache), а также один из Snowtide Informatics .

Обе библиотеки являются Java-библиотеками, но вы можете использовать их с .NET в сочетании с IKVM .

3

ответ дан 30 November 2019 в 14:25

Вот еще один:

http: / /csharp-source.net/open-source/pdf-libraries

0

ответ дан 30 November 2019 в 14:25

Похоже, что iTextSharp был популярным ответом Чтение PDF документов в .NET
Также посмотрите Чтение/запись PDF файлов в Visual C# Windows Forms

0

ответ дан 30 November 2019 в 14:25

Есть библиотека для .NET под названием PDF Clown

Также есть хорошая статья на codeProject статья , в которой подробно описаны некоторые другие библиотеки и подходы к чтению PDF-документов.

2

ответ дан 30 November 2019 в 14:25

Другие вопросы по тегам:

c# pdf

Программное чтение PDFs в [закрытом] C#

5 ответов

Похожие вопросы: