Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода. blockquote>
Это не так. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в условиях прогнозирования изменения веса, сделанные для более ранних горизонтов, имеют эффект.
Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.
Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.
Docsplit может оказаться полезным:
Docsplit - это утилита командной строки и библиотека Ruby для разделения документов на составные части: UTF- с возможностью поиска 8 простых текстов, изображений страниц или миниатюр в любом формате, PDF-файлы, отдельные страницы и метаданные документа (название, автор, количество страниц ...)
Вот несколько вариантов:
http://en.wikipedia.org/wiki/List_of_PDF_software
По этой ссылке и поиску sourceforge есть пара утилит командной строки, которые могут делайте что хотите, как этот: http://pdftohtml.sourceforge.net/
В зависимости от ваших требований и того, как выглядят PDF-файлы, вы можете посмотреть с помощью API Google Docs (загрузка PDF и затем загрузить его в виде текста), или также можно попробовать что-то вроде gocr . У меня было много удачи при разборе графического текста с помощью gocr в прошлом, и вам просто нужно было отскочить в оболочку, чтобы сделать это, например gocr -i what.pdf
(я думаю, это работает с PDF-файлами).
Недостатком всего этого является то, что они не являются чисто Ruby-реализациями, но многие хорошие (и бесплатные) проекты OCR, похоже, выполняются именно так.
Вы можете использовать JRuby и анализатор библиотеки Java PDF, например ApachePDFBox ( https://www.ohloh.net/p/pdfbox ). См. Также http://java-source.net/open-source/pdf-libraries .
Попробовав разные методы, я сейчас использую PDF-Toolkit . Он довольно старый, но быстрый, стабильный и надежный. Кроме того, он действительно не должен быть новым, потому что он просто оборачивает утилиты командной строки xpdf .
Если вам просто нужно получить текстовое содержимое из файла pdf, pdftohtml по адресу sourceforge эффективен. он не подходит для работы с изображениями.