Текст можно легко проанализировать следующим образом:
# gem install pdf-reader
require 'pdf-reader'
reader = PDF::Reader.new('my.pdf')
reader.pages.each do |page|
puts page.text
end
Это можно сделать с помощью той же библиотеки , См. Пример script examples / extract_images.rb .
Это (еще не) полный ответ. Теперь следующие шаги: