Критерии соответствия: On-line против Off-line λ-return алгоритма

Question

Критерии соответствия: On-line против Off-line λ-return алгоритма

SWIFT 4

extension String {
    func toDouble() -> Double? {
        let numberFormatter = NumberFormatter()
        numberFormatter.locale = Locale(identifier: "en_US_POSIX")
        return numberFormatter.number(from: self)?.doubleValue
    }
}

1

lambda return offline reinforcement-learning online-algorithm

задан fridoo 6 March 2019 в 12:02

1 ответ

Другие вопросы по тегам:

lambda return offline reinforcement-learning online-algorithm

Похожие вопросы:

score 0 · Answer 1

Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.
Это не так. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в условиях прогнозирования изменения веса, сделанные для более ранних горизонтов, имеют эффект.

Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.

Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.