Библиотеки Python для он-лайн машинного обучения MDP

Question

Библиотеки Python для он-лайн машинного обучения MDP

Я пытаюсь разработать итеративный марковский процесс принятия решений (MDP) агент в Python со следующими характеристиками:

наблюдаемое состояние
- Я обрабатываю потенциальное "неизвестное" состояние, резервируя некоторое пространство состояний для ответов на запросы, сделанные ДП (состояние в t+1 будет идентифицировать предыдущий запрос [или ноль, если предыдущее движение не было запросом] а также встроенный вектор результатов) это пространство заполняется 0s до фиксированной длины, чтобы кадр состояния оставался выровненным независимо от запроса ответы (длина данных которых может меняться)
действия, которые не всегда могут быть доступны во всех состояниях
функция вознаграждения может меняться со временем
сходимость политики должна быть инкрементальной и вычисляться только на каждый ход

Итак, основная идея состоит в том, что MDP должна сделать свой оптимизированный ход в T, используя свою текущую вероятностную модель (а поскольку она вероятностная, то ход, который она делает, ожидаемо стохастический, что подразумевает возможную случайность), соединить новое входное состояние в T+1 с вознаграждением от предыдущего хода в T и переоценить модель. Сходимость не должна быть постоянной, поскольку вознаграждение может изменяться или доступные действия могут меняться.

Я хотел бы узнать, есть ли какие-нибудь современные библиотеки python (желательно кроссплатформенные, так как я постоянно меняю окружение между Windoze и Linux), которые уже могут делать подобные вещи (или могут поддерживать их с подходящей настройкой, например: поддержка производных классов, позволяющая переопределять скажем метод вознаграждения своим собственным).

Я обнаружил, что информация об онлайновом обучении MDP на каждый ход довольно скудна. Большинство случаев использования MDP, которые я могу найти, похоже, сосредоточены на решении всей политики в качестве предварительного шага обработки.

8

python machine-learning markov

задан unutbu 5 February 2012 в 02:40

0 ответов

Другие вопросы по тегам:

python machine-learning markov

Библиотеки Python для он-лайн машинного обучения MDP

0 ответов

Похожие вопросы: