Отрицательные вознаграждения в QLearning

Question

Отрицательные вознаграждения в QLearning

НЕОБХОДИМО использовать энергозависимый при реализации структур данных без блокировок. Иначе компилятор является бесплатным оптимизировать доступ к переменной, которая изменит семантику.

Другими словами, энергозависимый говорит компилятору, что доступы к этой переменной должны соответствовать операции чтения-записи физической памяти.

, Например, это - то, как InterlockedIncrement объявляется в API Win32:

LONG __cdecl InterlockedIncrement(
  __inout  LONG volatile *Addend
);

5

artificial-intelligence reinforcement-learning

задан devoured elysium 4 December 2009 в 00:54

2 ответа

Отрицательная обратная связь распространяется только тогда, когда это единственный возможный результат определенного хода.

Было ли это преднамеренным или непреднамеренным, я не знаю.

5

ответ дан 14 December 2019 в 08:52

Другие вопросы по тегам:

artificial-intelligence reinforcement-learning

Похожие вопросы:

score 2 · Accepted Answer

Вы можете избежать отрицательных наград, увеличив награду по умолчанию с 0 до 1, награду за цель с 10 до 11 и штраф с -1 до 0.

Существует множество научных исследований. публикации по Q-обучению, поэтому я уверен, что есть и другие формулировки, допускающие отрицательную обратную связь.

РЕДАКТИРОВАТЬ: Я исправлюсь, это не меняет поведения, как я сказал ранее. Мой мыслительный процесс заключался в том, что формулировку с отрицательной обратной связью можно заменить формулировкой без обратной связи.

Причина вашего наблюдения состоит в том, что у вас нет неуверенности в результате ваших действий или состоянии, в котором они находятся, поэтому ваш агент всегда может выбрать действие, которое, по его мнению, имеет оптимальное вознаграждение (таким образом, максимальное значение Q для всех будущих действий). Вот почему ваша отрицательная обратная связь не распространяется: агент просто избегает этого действия в будущем.

Однако если ваша модель будет включать неопределенность в отношении результата ваших действий (например, всегда существует 10% вероятность того, что движется в случайном направлении), ваше правило обучения должно интегрироваться во все возможные будущие награды (в основном заменяя максимум взвешенной суммой). В этом случае может распространяться и отрицательная обратная связь (поэтому я подумал, что это должно быть возможно: p).