Сканирование PDF-документа с использованием рубинов на рельсах [дубликат]

6.4.2 / 2 Оператор switch (выделение)

Условие должно быть целочисленного типа, типа перечисления или типа класса, для которого один неявный существует функция преобразования в интегральный или перечисляемый тип (12.3). Если условие имеет тип класса, условие преобразуется путем вызова этой функции преобразования, а результат преобразования используется вместо исходного условия для остальной части этого раздела.

Поэтому моя интерпретация заключается в том, что g ++ здесь верен.

5
задан Besi 24 January 2015 в 15:16
поделиться

2 ответа

Получение текста

Текст можно легко проанализировать следующим образом:

# gem install pdf-reader
require 'pdf-reader'

reader = PDF::Reader.new('my.pdf')

reader.pages.each do |page|
  puts page.text
end

Сохранение изображения

Это можно сделать с помощью той же библиотеки , См. Пример script examples / extract_images.rb .

Однако

Это (еще не) полный ответ. Теперь следующие шаги:

  1. Разбор текста и поиск заголовков
  2. Обрезка изображения, которое может быть достигнуто с помощью библиотеки, такой как RMagick или Mini Magick .
3
ответ дан Besi 22 August 2018 в 23:14
поделиться

pdf-reader является одним из решений. Но у него есть проблемы, иногда он не дает текст в надлежащем формате. Я использовал его.

Я предлагаю использовать docsplit . Вы найдете дополнительную информацию о «pdf-reader» и «docsplit» в в этом сообщении в блоге .

Надеюсь, это поможет. Если какие-либо разъяснения требуются, не стесняйтесь комментировать.

7
ответ дан Shweta 22 August 2018 в 23:14
поделиться
  • 1
    im с помощью pdf-ридера. просто наткнулся на проблему, где он не делает большой работы над верхними индексами. то есть. если имеется 50 верхний индекс 100, он будет считать его как «50100», – appleLover 31 March 2017 в 16:16
  • 2
    @appleLover вы попробовали docsplit – Shweta 8 April 2017 в 14:52
  • 3
    да, docsplit не помог. Я получил его на работу после больших усилий. PDF-Reader имеет эту функцию обратного вызова, где вы можете получить доступ к каждой маленькой части данных в PDF, прежде чем их библиотека обработает ее. поэтому я использовал обратные вызовы и сам разбирал их, затем объединил их с другими данными из PDF-ридера, которые не были повреждены – appleLover 15 April 2017 в 16:05
Другие вопросы по тегам:

Похожие вопросы: