Есть библиотека под названием IText, которая делает то, что вы хотите. Это своего рода продукт №1, и он бесплатный, как пиво.
Я работал с IText раньше, извлекая содержимое из PDF, и хотя он не является супер-пупер автоматическим, он позволяет вам получить все.
Рекомендую, другими словами.