Мне сложно понять алгоритм SARSA: http://en.wikipedia.org/wiki/SARSA
В частности, что такое гамма при обновлении значения Q? и какие значения используются для s (t + 1) и a (t + 1)?
Может ли кто-нибудь объяснить мне этот алгоритм?
Спасибо.