Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т.е. сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсь использовать технику Q-обучения, но хотя я нашел способ распространить этот метод на непрерывные пространства состояний , я не могу понять, как решить проблему с Пространство непрерывного действия.

Я мог бы просто заставить все движения мыши иметь определенную величину и только в определенном количестве разных направлений, но любой разумный способ сделать действия дискретными приведет к огромному пространству действия. Поскольку стандартное Q-обучение требует, чтобы агент оценил все возможные действия, такое приближение не решает проблему в каком-либо практическом смысле.

27
задан nbro 19 February 2019 в 08:56
поделиться

1 ответ

Еще одна статья, составленная из школы, основанной на значениях, - Входные выпуклые нейронные сети . Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях). Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях. Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.

0
ответ дан 28 November 2019 в 05:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: