Я пытаюсь разработать итеративный марковский процесс принятия решений (MDP) агент в Python со следующими характеристиками:
Итак, основная идея состоит в том, что MDP должна сделать свой оптимизированный ход в T, используя свою текущую вероятностную модель (а поскольку она вероятностная, то ход, который она делает, ожидаемо стохастический, что подразумевает возможную случайность), соединить новое входное состояние в T+1 с вознаграждением от предыдущего хода в T и переоценить модель. Сходимость не должна быть постоянной, поскольку вознаграждение может изменяться или доступные действия могут меняться.
Я хотел бы узнать, есть ли какие-нибудь современные библиотеки python (желательно кроссплатформенные, так как я постоянно меняю окружение между Windoze и Linux), которые уже могут делать подобные вещи (или могут поддерживать их с подходящей настройкой, например: поддержка производных классов, позволяющая переопределять скажем метод вознаграждения своим собственным).
Я обнаружил, что информация об онлайновом обучении MDP на каждый ход довольно скудна. Большинство случаев использования MDP, которые я могу найти, похоже, сосредоточены на решении всей политики в качестве предварительного шага обработки.