Библиотеки Python для он-лайн машинного обучения MDP

Я пытаюсь разработать итеративный марковский процесс принятия решений (MDP) агент в Python со следующими характеристиками:

  • наблюдаемое состояние
    • Я обрабатываю потенциальное "неизвестное" состояние, резервируя некоторое пространство состояний для ответов на запросы, сделанные ДП (состояние в t+1 будет идентифицировать предыдущий запрос [или ноль, если предыдущее движение не было запросом] а также встроенный вектор результатов) это пространство заполняется 0s до фиксированной длины, чтобы кадр состояния оставался выровненным независимо от запроса ответы (длина данных которых может меняться)
  • действия, которые не всегда могут быть доступны во всех состояниях
  • функция вознаграждения может меняться со временем
  • сходимость политики должна быть инкрементальной и вычисляться только на каждый ход

Итак, основная идея состоит в том, что MDP должна сделать свой оптимизированный ход в T, используя свою текущую вероятностную модель (а поскольку она вероятностная, то ход, который она делает, ожидаемо стохастический, что подразумевает возможную случайность), соединить новое входное состояние в T+1 с вознаграждением от предыдущего хода в T и переоценить модель. Сходимость не должна быть постоянной, поскольку вознаграждение может изменяться или доступные действия могут меняться.

Я хотел бы узнать, есть ли какие-нибудь современные библиотеки python (желательно кроссплатформенные, так как я постоянно меняю окружение между Windoze и Linux), которые уже могут делать подобные вещи (или могут поддерживать их с подходящей настройкой, например: поддержка производных классов, позволяющая переопределять скажем метод вознаграждения своим собственным).

Я обнаружил, что информация об онлайновом обучении MDP на каждый ход довольно скудна. Большинство случаев использования MDP, которые я могу найти, похоже, сосредоточены на решении всей политики в качестве предварительного шага обработки.

8
задан unutbu 5 February 2012 в 02:40
поделиться