Ruby: Чтение файлов PDF

Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.

Это не так. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в условиях прогнозирования изменения веса, сделанные для более ранних горизонтов, имеют эффект.

Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.

Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.

33
задан Javier 25 April 2009 в 00:09
поделиться

5 ответов

Docsplit может оказаться полезным:

Docsplit - это утилита командной строки и библиотека Ruby для разделения документов на составные части: UTF- с возможностью поиска 8 простых текстов, изображений страниц или миниатюр в любом формате, PDF-файлы, отдельные страницы и метаданные документа (название, автор, количество страниц ...)

24
ответ дан 27 November 2019 в 19:31
поделиться

Вот несколько вариантов:

http://en.wikipedia.org/wiki/List_of_PDF_software

По этой ссылке и поиску sourceforge есть пара утилит командной строки, которые могут делайте что хотите, как этот: http://pdftohtml.sourceforge.net/

В зависимости от ваших требований и того, как выглядят PDF-файлы, вы можете посмотреть с помощью API Google Docs (загрузка PDF и затем загрузить его в виде текста), или также можно попробовать что-то вроде gocr . У меня было много удачи при разборе графического текста с помощью gocr в прошлом, и вам просто нужно было отскочить в оболочку, чтобы сделать это, например gocr -i what.pdf (я думаю, это работает с PDF-файлами).

Недостатком всего этого является то, что они не являются чисто Ruby-реализациями, но многие хорошие (и бесплатные) проекты OCR, похоже, выполняются именно так.

0
ответ дан 27 November 2019 в 19:31
поделиться

Вы можете использовать JRuby и анализатор библиотеки Java PDF, например ApachePDFBox ( https://www.ohloh.net/p/pdfbox ). См. Также http://java-source.net/open-source/pdf-libraries .

1
ответ дан 27 November 2019 в 19:31
поделиться

Попробовав разные методы, я сейчас использую PDF-Toolkit . Он довольно старый, но быстрый, стабильный и надежный. Кроме того, он действительно не должен быть новым, потому что он просто оборачивает утилиты командной строки xpdf .

2
ответ дан 27 November 2019 в 19:31
поделиться

Если вам просто нужно получить текстовое содержимое из файла pdf, pdftohtml по адресу sourceforge эффективен. он не подходит для работы с изображениями.

0
ответ дан 27 November 2019 в 19:31
поделиться
Другие вопросы по тегам:

Похожие вопросы: