0
ответов

Действительно ли нейронные сети отказываются от ПО?

Я планирую использовать нейронные сети. сети для аппроксимации функции цены в алгоритме обучения с подкреплением. Я хочу сделать это, чтобы ввести некоторое обобщение и гибкость в том, как я представляю ...
вопрос задан: 2 August 2011 10:48
0
ответов

C ++ Обучение с подкреплением и интеллектуальные указатели

Я выполняю свой магистерский проект по сенсомоторному онлайн-обучению роботов с использованием методов обучения с подкреплением (Q, sarsa, TD (λ), Actor-Critic, R, так далее). В настоящее время я разрабатываю структуру, на основе которой ...
вопрос задан: 7 July 2011 06:13
0
ответов

Алгоритм SARSA

Мне сложно понять алгоритм SARSA: http://en.wikipedia.org/wiki/SARSA В частности, при обновлении значения Q что такое гамма? и какие значения используются для s (t + 1) и a (t + 1)? Может ...
вопрос задан: 22 May 2011 13:13
0
ответов

Там какое-либо активное укрепление изучает соревнования?

Мне нравится проводить исследование с частичной занятостью в изучении укрепления. В последние годы (до 2009) были соревнования изучения укрепления, проведенные по rl-competition.org с некоторыми очень интересными проблемами...
вопрос задан: 19 October 2010 21:12