Обучение нейронной сети с обучением с подкреплением

Я знаю основы нейронных сетей с прямой связью и знаю, как их обучать с использованием алгоритма обратного распространения, но я ищу алгоритм, который я могу использовать для обучения ИНС онлайн с обучением с подкреплением.

Например, задачу о подъеме шеста тележкия хотел бы решить с помощью ИНС. В таком случае я не знаю, что нужно сделать, чтобы управлять маятником, я знаю только, насколько я близок к идеальному положению. Мне нужно, чтобы ИНС обучалась на основе вознаграждения и наказания. Таким образом, контролируемое обучение не вариант.

Другая ситуация похожа на игру в змею, где обратная связь задерживается и ограничивается целями и антицелями, а не вознаграждением.

Я могу придумать некоторые алгоритмы для первой ситуации, такие как восхождение на холм или генетические алгоритмы, но я предполагаю, что они оба будут медленными. Они также могут быть применимы во втором сценарии, но невероятно медленны и не способствуют онлайн-обучению.

У меня простой вопрос: Существует ли простой алгоритм обучения искусственной нейронной сети с обучением с подкреплением?Меня в основном интересуют ситуации с вознаграждением в реальном времени, но если алгоритм для ситуаций, основанных на цели, есть в наличии, даже лучше.

61
задан Kendall Frey 23 May 2012 в 14:27
поделиться