В этом примере TEST_EPISODES
используется для изменения критериев решения. С TEST_EPISODES = 1
игра считается решенной, как только последняя игра набирает> 0,80, а с TEST_EPISODES = 20
средний счет за последние 20 раундов должен быть> 0,80, чтобы считать игру решенной.
Поскольку в этой игре есть стохастические действия, т. Е. Вы не получаете один и тот же результат за то, что каждый раз выполняете одно и то же действие в одном и том же состоянии, чем выше вы поднимаетесь TEST_EPISODES
, тем более надежным будет решение , С помощью TEST_EPISODES = 1
этот сценарий будет считать игру решенной, если он просто случайно найдет цель с первой попытки, но вероятность сделать это 20 раз подряд с плохой моделью гораздо меньше.
Среднее значение для большего числа эпизодов часто является лучшим показателем для такого рода проблем, чем скорость достижения цели в первый раз. Представьте, что если вам приходилось работать в этой среде, и ваша жизнь зависела от безопасного достижения цели, вы, вероятно, хотели бы, чтобы она училась до тех пор, пока пороговое значение не станет намного ближе к 1.
Я не могу быть более конкретным, не видя точно, какое расположение Вы идете для, но если Вы просто хотите получить маркировку выше переключателя, используйте display:block на переключателе. (очевидно, это встроено так же, как пример),
<label>Label <input style="display:block;" type="radio" id="val" name="val" value="hello" /></label>
Вместо следующего:
<label>Label <input type="radio" id="val" name="val" value="hello"></label>
Можно использовать это и разработать два отдельно:
<label for="val">Label</label>
<input type="radio" id="val" name="val" value="hello">
Таким образом, я знаю, что это не ответ, который Вы ищете, но я был бы смущен для наблюдения того типа расположения. Это не стандартно, и это оттолкнуло бы меня. Просто мои.02$.
Я думаю, что знаю то, что Вы ищете, но исправляете меня, если я промахиваюсь. Я предполагаю, что Вы захотите переключатели, центрируемые под их маркировками. Это намного легче, если Вы хорошо с добавлением <br>
s к Вашей разметке.
label {
float: left;
padding: 0 1em;
text-align: center;
}
<label for="myChoice1">Choice 1<br />
<input type="radio" id="myChoice1" name="myChoice" value="1" />
</label>
<label for="myChoice2">Choice ABC<br />
<input type="radio" id="myChoice2" name="myChoice" value="ABC" />
</label>
<label for="myChoice3">Choice qwerty<br />
<input type="radio" id="myChoice3" name="myChoice" value="qwerty" />
</label>
<label for="myChoice4">Choice--final<br />
<input type="radio" id="myChoice4" name="myChoice" value="final" />
</label>
... и затем используйте свой собственный метод очистки для перемещения в следующую строку.
(Использование for
атрибут в <label>
s немного избыточен здесь, но он ничего не повредит.)