Программное чтение PDFs в [закрытом] C#

Я вижу много вопросов и ответов об использовании C# для генерации файлов PDF.
У меня есть связанная, но другая задача.

У меня есть большое количество файлов PDF, уже созданных, и я хотел бы проверить определенные части содержания с Регулярными выражениями (RegExs). Я хочу открыть PDFs in C# и быть в состоянии считать текст в чем-то приближающемся к линейному виду.

Если заголовки, нижние колонтитулы, какие-либо боковые панели, и т.д., пропускаются, или читайте не в порядке, это не имеет значения. Я сразу после такое количество текста основной части, как я могу получить.

Можно ли указать на меня к инструментам, библиотекам, API, и т.д., который позволит мне программно прочитать текст в файлах PDF?

17
задан abelenky 9 March 2010 в 18:43
поделиться

5 ответов

Я использовал PDFSharp не позднее последнего automn и нашел его очень простым в использовании по сравнению с другими. Домашняя страница PDFSharp.

8
ответ дан 30 November 2019 в 14:25
поделиться

Я успешно использовал для этой цели две разные библиотеки. Один из них - PDF Box (часть проекта Apache), а также один из Snowtide Informatics .

Обе библиотеки являются Java-библиотеками, но вы можете использовать их с .NET в сочетании с IKVM .

3
ответ дан 30 November 2019 в 14:25
поделиться
0
ответ дан 30 November 2019 в 14:25
поделиться

Похоже, что iTextSharp был популярным ответом Чтение PDF документов в .NET
Также посмотрите Чтение/запись PDF файлов в Visual C# Windows Forms

0
ответ дан 30 November 2019 в 14:25
поделиться

Есть библиотека для .NET под названием PDF Clown

Также есть хорошая статья на codeProject статья , в которой подробно описаны некоторые другие библиотеки и подходы к чтению PDF-документов.

2
ответ дан 30 November 2019 в 14:25
поделиться
Другие вопросы по тегам:

Похожие вопросы: