Ghostscript может сделать то, что вам нужно. Ниже приведена команда для извлечения текста из pdf-файла в txt-файл (вы можете запустить ее из командной строки, чтобы проверить, работает ли она на вас):
gswin32c.exe -q -dNODISPLAY -dSAFER -dDELAYBIND -dWRITESYSTEMDICT -dSIMPLE -c save -f ps2ascii.ps "test.pdf" -c quit >"test.txt"
Проверьте здесь: код-проект: Преобразование PDF в изображение с помощью Ghostscript API для получения подробной информации об использовании ghostscript с помощью C#
.Мне самому это понадобилось, и я использовал эту статью, чтобы начать работу: http://www.codeproject.com/KB/string/pdf2text.aspx
Концепция преобразования PDF в текст не совсем прямая, и вы не увидите здесь кода, который будет преобразовывать PDF в текст напрямую. Так что ваша лучшая ставка сейчас, чтобы использовать библиотеку, которая сделает работу за вас ... хороший PDFBox, вы можете Google его. Вы, вероятно, найдете его написано на java, но, к счастью, вы можете использовать IKVM, чтобы преобразовать его в .Net....
.