В чем разница между Q-Learning и SARSA?

Question

В чем разница между Q-Learning и SARSA?

Хотя я знаю, что SARSA находится в соответствии с политикой, а Q-Learning не входит в политику, при просмотре их формул это сложно (для меня ), чтобы увидеть разницу между этими двумя алгоритмами.

Согласно книге Reinforcement Learning: An Introduction (Sutton and Barto). В алгоритме SARSA для данной политики соответствующая функция значения действия Q (в состоянии s и действии a, на временном шаге t), то есть Q (s _t, a _t ), можно обновить следующим образом

Q (s _t, a _t) = Q (s _t, a _t ) + α * (r _t + γ * Q (s _{t + 1}, a _{t + 1}) - Q (s _t ], a _t))

С другой стороны, этап обновления алгоритма Q-обучения следующий

Q (s _t, a _t) = Q (s _t, a _t) + α * (r _t + γ * max _a Q (s _{t + 1}, a) - Q (s _t, a _t))

, который также можно записать как

Q ( s _t, a _t) = (1 - α) * Q (s _t, a _t) + α * (r _t + γ * max _a Q (s _{t + 1}, a))

где γ (гамма) - это коэффициент дисконтирования, а r _t - это вознаграждение, полученное от среды на временном шаге t.

Разница между этими двумя алгоритмами состоит в том, что SARSA ищет только следующее значение политики, в то время как Q-Learning ищет следующее максимальное значение политики ?

TL; DR (и мой собственный ответ)

Спасибо всем, кто отвечает на этот вопрос, так как я впервые его задал. Я сделал репозиторий github , играя с Q-Learning, и эмпирически понял, в чем разница. Все сводится к тому, как вы выбираете следующее наилучшее действие , которое с алгоритмической точки зрения может быть средним , максимальным или лучшим действием. в зависимости от того, как вы решили его реализовать.

Другое главное отличие - , когда этот выбор происходит (например, онлайн против офлайн ) и как / почему это влияет на обучение. Если вы читаете это в 2019 году и больше являетесь практическим человеком, игра с игрушечной задачей RL, вероятно, лучший способ понять различия.

И последнее важное примечание: оба Suton & Барто, как и Википедия, часто смешивают, сбивают с толку или неправильные формульные представления в отношении наилучшего / максимального действия и награды следующего состояния :

r (t + 1)

на самом деле

r (t)

Надеюсь, это поможет любому, кто когда-либо застрянет на этом.

47

artificial-intelligence reinforcement-learning q-learning sarsa

задан Ælex 30 January 2019 в 02:32

1 ответ

Другие вопросы по тегам:

artificial-intelligence reinforcement-learning q-learning sarsa

В чем разница между Q-Learning и SARSA?

1 ответ

Похожие вопросы: