Ruby: Чтение файлов PDF

Question

Ruby: Чтение файлов PDF

Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.
Это не так. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в условиях прогнозирования изменения веса, сделанные для более ранних горизонтов, имеют эффект.

Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.

Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.

33

ruby-on-rails ruby pdf pdf-parsing

задан Javier 25 April 2009 в 00:09

5 ответов

Вот несколько вариантов:

http://en.wikipedia.org/wiki/List_of_PDF_software

По этой ссылке и поиску sourceforge есть пара утилит командной строки, которые могут делайте что хотите, как этот: http://pdftohtml.sourceforge.net/

В зависимости от ваших требований и того, как выглядят PDF-файлы, вы можете посмотреть с помощью API Google Docs (загрузка PDF и затем загрузить его в виде текста), или также можно попробовать что-то вроде gocr . У меня было много удачи при разборе графического текста с помощью gocr в прошлом, и вам просто нужно было отскочить в оболочку, чтобы сделать это, например gocr -i what.pdf (я думаю, это работает с PDF-файлами).

Недостатком всего этого является то, что они не являются чисто Ruby-реализациями, но многие хорошие (и бесплатные) проекты OCR, похоже, выполняются именно так.

0

ответ дан 27 November 2019 в 19:31

Вы можете использовать JRuby и анализатор библиотеки Java PDF, например ApachePDFBox ( https://www.ohloh.net/p/pdfbox ). См. Также http://java-source.net/open-source/pdf-libraries .

1

ответ дан 27 November 2019 в 19:31

Попробовав разные методы, я сейчас использую PDF-Toolkit . Он довольно старый, но быстрый, стабильный и надежный. Кроме того, он действительно не должен быть новым, потому что он просто оборачивает утилиты командной строки xpdf .

2

ответ дан 27 November 2019 в 19:31

Если вам просто нужно получить текстовое содержимое из файла pdf, pdftohtml по адресу sourceforge эффективен. он не подходит для работы с изображениями.

0

ответ дан 27 November 2019 в 19:31

Другие вопросы по тегам:

ruby-on-rails ruby pdf pdf-parsing

Ruby: Чтение файлов PDF

5 ответов

Похожие вопросы: