SWIFT 4
extension String {
func toDouble() -> Double? {
let numberFormatter = NumberFormatter()
numberFormatter.locale = Locale(identifier: "en_US_POSIX")
return numberFormatter.number(from: self)?.doubleValue
}
}
Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода. blockquote>
Это не так. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в условиях прогнозирования изменения веса, сделанные для более ранних горизонтов, имеют эффект.
Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.
Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.