Я вижу много вопросов и ответов об использовании C# для генерации файлов PDF.
У меня есть связанная, но другая задача.
У меня есть большое количество файлов PDF, уже созданных, и я хотел бы проверить определенные части содержания с Регулярными выражениями (RegExs). Я хочу открыть PDFs in C# и быть в состоянии считать текст в чем-то приближающемся к линейному виду.
Если заголовки, нижние колонтитулы, какие-либо боковые панели, и т.д., пропускаются, или читайте не в порядке, это не имеет значения. Я сразу после такое количество текста основной части, как я могу получить.
Можно ли указать на меня к инструментам, библиотекам, API, и т.д., который позволит мне программно прочитать текст в файлах PDF?
Я использовал PDFSharp не позднее последнего automn и нашел его очень простым в использовании по сравнению с другими. Домашняя страница PDFSharp.
Я успешно использовал для этой цели две разные библиотеки. Один из них - PDF Box (часть проекта Apache), а также один из Snowtide Informatics .
Обе библиотеки являются Java-библиотеками, но вы можете использовать их с .NET в сочетании с IKVM .
Похоже, что iTextSharp был популярным ответом Чтение PDF документов в .NET
Также посмотрите Чтение/запись PDF файлов в Visual C# Windows Forms
Есть библиотека для .NET под названием PDF Clown
Также есть хорошая статья на codeProject статья , в которой подробно описаны некоторые другие библиотеки и подходы к чтению PDF-документов.