Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Question

Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т.е. сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсь использовать технику Q-обучения, но хотя я нашел способ распространить этот метод на непрерывные пространства состояний , я не могу понять, как решить проблему с Пространство непрерывного действия.

Я мог бы просто заставить все движения мыши иметь определенную величину и только в определенном количестве разных направлений, но любой разумный способ сделать действия дискретными приведет к огромному пространству действия. Поскольку стандартное Q-обучение требует, чтобы агент оценил все возможные действия, такое приближение не решает проблему в каком-либо практическом смысле.

27

algorithm machine-learning reinforcement-learning q-learning

задан nbro 19 February 2019 в 08:56

1 ответ

Другие вопросы по тегам:

algorithm machine-learning reinforcement-learning q-learning

Похожие вопросы:

score 0 · Answer 1

Еще одна статья, составленная из школы, основанной на значениях, - Входные выпуклые нейронные сети . Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях). Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях. Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.