1
ответ

Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т. Е. Сигнал вознаграждения является единственной обратной связью для учебы). Я надеюсь ...
вопрос задан: 19 February 2019 08:56
1
ответ

В чем разница между Q-Learning и SARSA?

Хотя я знаю, что SARSA входит в политику, а Q-Learning вне политики, при просмотре их формул (мне) трудно увидеть какую-либо разницу между этими двумя алгоритмами. Согласно книге ...
вопрос задан: 30 January 2019 02:32
1
ответ

Несоответствия между tf.contrib.layer.fully_connected, tf.layers.dense, tf.contrib.slim.fully_connected, tf.keras.layers.Dense

Я пытаюсь реализовать градиент политики для проблемы контекстуального бандита (https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-1-5-contextual-bandits-bff01d1aad9c). Я ...
вопрос задан: 16 January 2019 17:02
1
ответ

В-обучение, как влияет количество тестовых эпизодов на конвергенцию?

в следующем коде, который является кодом для решения FrozenLake 4x4 с помощью Q-обучения. в обучающей части, почему мы играем 20 эпизодов тестовой среды вместо одного в каждом цикле? Я старался ...
вопрос задан: 16 January 2019 06:03
0
ответов

Java 2D хеш-таблицы для обучения Q

В настоящее время я пытаюсь сделать Q обучения для Игры и хотел бы создать таблицу Q обучения. По сути, я хотел бы иметь двухмерную хэш-таблицу, состоящую из четырех массивов, которые содержат действия (Jump, ...
вопрос задан: 21 March 2019 18:35
0
ответов

Q-обучение для оптимального размещения заказа

Таким образом, последний поток, который я написал о Reinforcement Learning, был помечен как слишком широкий, что я полностью понял. Я никогда не работал с этим раньше, поэтому я пытаюсь изучить его самостоятельно - задача не из легких, так что ...
вопрос задан: 22 January 2019 14:54