Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т.е. сигнал вознаграждения является единственной обратной связью для обучения).
Я надеюсь использовать технику Q-обучения, но хотя я нашел способ распространить этот метод на непрерывные пространства состояний , я не могу понять, как решить проблему с Пространство непрерывного действия.
Я мог бы просто заставить все движения мыши иметь определенную величину и только в определенном количестве разных направлений, но любой разумный способ сделать действия дискретными приведет к огромному пространству действия. Поскольку стандартное Q-обучение требует, чтобы агент оценил все возможные действия, такое приближение не решает проблему в каком-либо практическом смысле.
Еще одна статья, составленная из школы, основанной на значениях, - Входные выпуклые нейронные сети . Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях). Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях. Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.