Обучение с подкреплением с помощью переменных действий

Все алгоритмы обучения с подкреплением , о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для принятия решения с учетом переменного количества действий? Например, как бы вы применили алгоритм RL в компьютерной игре, где игрок управляет N солдатами, а у каждого солдата есть случайное количество действий в зависимости от его состояния? Вы не можете сформулировать фиксированное количество действий для лица, принимающего глобальные решения (т.е. «генерала»), потому что доступные действия постоянно меняются по мере создания и уничтожения солдат. И вы не можете сформулировать фиксированное количество действий на уровне солдата, поскольку действия солдата условны в зависимости от его ближайшего окружения. Если солдат не видит противников, он может только ходить, тогда как если он видит 10 противников, то он имеет 10 новых возможных действий, атакуя 1 из 10 противников.

11
задан Vadim Kotov 24 October 2017 в 12:28
поделиться