5
ответов

Хорошие реализации укрепления, учащегося?

Для проекта ай-класса я должен реализовать алгоритм изучения укрепления, который бьет простую игру Тетриса. Игра записана в Java, и у нас есть исходный код. Я знаю основы...
вопрос задан: 7 April 2015 16:09
4
ответа

Как использовать нейронные сети для решения “мягких” решений?

Я рассматриваю использование нейронной сети для включения моих врагов в игре стрелка пространства, которую я создаю, и я задаюсь вопросом; как Вы обучаете нейронные сети, когда нет никакого категорического хорошего набора выводов...
вопрос задан: 4 January 2016 15:51
3
ответа

Как я выполняю Саттон и “укрепление Barton, изучая” код Lisp?

Я читал много об Укреплении, Учащемся в последнее время, и я нашел "Укрепление, Учащееся: Введение", чтобы быть превосходным руководством. Услужливо провице-исходный код автора для много...
вопрос задан: 17 October 2017 14:18
3
ответа

Какой модуль (модули) я должен включать, чтобы заставить 5.seconds работать в Ruby?

Поскольку, по-видимому, требуют, чтобы 'дата' не включала часы метода или секунды и т.д.: неопределенный метод 'часы' для 5:Fixnum (NoMethodError) Является мной пропускающий что-то? 5.seconds только что-то, что Вы можете...
вопрос задан: 21 May 2010 18:37
2
ответа

Отрицательные вознаграждения в QLearning

Давайте предположим, что мы находимся в комнате, где наш агент может пройти xx и yy ось. В каждой точке он может переместиться вверх, вниз, вправо и влево. Таким образом, наше пространство состояний может быть определено (x, y) и наши действия в каждом...
вопрос задан: 4 December 2009 00:54
2
ответа

Каково использование рекуррентных нейронных сетей при использовании их с Укреплением, Учащимся?

Я действительно знаю, что feedforward многослойные нейронные сети с backprop используются с Укреплением, Учась, чтобы помочь ему обобщить действия, которые делает наш агент. Это, если у нас есть большое пространство состояний, мы...
вопрос задан: 23 November 2009 14:19
1
ответ

Ошибка оптимизатора Адама: одна из переменных, необходимых для вычисления градиента, была изменена операцией на месте

Я пытаюсь реализовать алгоритм атомуизации Actor-Critic, который отличается от базового алгоритма Actor-критика, он немного изменился. В любом случае, я использовал оптимизатор Adam и реализовал с ...
вопрос задан: 14 April 2019 08:42
1
ответ

Критерии соответствия: On-line против Off-line λ-return алгоритма

У меня есть некоторые проблемы с выяснением, почему вам нужно пересматривать все временные шаги из эпизода на каждом горизонте для онлайн-версии алгоритма λ-возврата из книги: Армирование ...
вопрос задан: 6 March 2019 12:02
1
ответ

Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т. Е. Сигнал вознаграждения является единственной обратной связью для учебы). Я надеюсь ...
вопрос задан: 19 February 2019 08:56
1
ответ

В чем разница между Q-Learning и SARSA?

Хотя я знаю, что SARSA входит в политику, а Q-Learning вне политики, при просмотре их формул (мне) трудно увидеть какую-либо разницу между этими двумя алгоритмами. Согласно книге ...
вопрос задан: 30 January 2019 02:32
1
ответ

Поиск (Python) проекта, который сравнивает обучение в области подкрепления с DeepRL

Существует обучение по подкреплению без какой-либо нейронной сети (например, Q-Learning), и есть обучение по глубокому подкреплению (например, Deep Q-Learning). Уже есть проект, который обеспечивает сравнение ...
вопрос задан: 19 January 2019 15:48
1
ответ

Несоответствия между tf.contrib.layer.fully_connected, tf.layers.dense, tf.contrib.slim.fully_connected, tf.keras.layers.Dense

Я пытаюсь реализовать градиент политики для проблемы контекстуального бандита (https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-1-5-contextual-bandits-bff01d1aad9c). Я ...
вопрос задан: 16 January 2019 17:02
1
ответ

в торговле акциями, как измерить количество акций

Я работаю над анализом и прогнозированием фондового рынка с использованием методов машинного обучения, особенно с усиленным обучением. Я пытаюсь предсказать короткую, длинную и плоскую. (купить, держать, продавать). (любой ...
вопрос задан: 16 January 2019 06:17
1
ответ

OOM в TensorFlow DQN с большим набором действий

Ниже приведен код для сети Deep Q в TensorFlow. При выполнении этого происходит ошибка OOM при инициализации переменных TensorFlow. Я думаю, что это потому, что моя модель эксперимента имеет гораздо больший набор действий (...
вопрос задан: 13 July 2018 10:15
1
ответ

Усиление обучения в C # [закрыто]

Я намереваюсь использовать обучение подкреплению в моем проекте, но я не знаю, как его реализовать. Поэтому я ищу библиотеку с различными алгоритмами RL, которую я могу использовать в своем проекте на C #. Спасибо ...
вопрос задан: 8 June 2011 16:41
1
ответ

Альфа и Гамма параметры в QLearning

Какое значение к алгоритму это имеет наличием большого или маленького гамма значения? В моем оптическом, пока это ни один 0 или 1, это должно работать точно то же. С другой стороны, безотносительно гаммы I...
вопрос задан: 6 December 2009 07:37
0
ответов

Когда мне следует использовать опорные векторные машины, а не искусственные нейронные сети?

Я знаю, что SVM якобы являются «убийцами ANN» в том смысле, что они автоматически выбирают сложность представления и находят глобальный оптимум (см. Здесь некоторые цитаты с одобрением SVM) . Но вот где мне неясно ...
вопрос задан: 16 June 2019 12:58
0
ответов

Java 2D хеш-таблицы для обучения Q

В настоящее время я пытаюсь сделать Q обучения для Игры и хотел бы создать таблицу Q обучения. По сути, я хотел бы иметь двухмерную хэш-таблицу, состоящую из четырех массивов, которые содержат действия (Jump, ...
вопрос задан: 21 March 2019 18:35
0
ответов

Использование Openai Spaces для измененной среды

У меня есть двумерный массив нормализованных данных. Я использую space = np.array ([0,1, ... 366], [0,0.000001, ..... 1]). Мне нужно приспособить это как пространство наблюдения в обучении подкреплению. Я расширил ...
вопрос задан: 18 March 2019 01:07
0
ответов

Аппроксиматор логарифмической вероятности загара (среднее + стандартное отклонение * z)

Я пытался понять блог, посвященный критике мягких актеров, где у нас есть нейронная сеть, представляющая политику, которая выводит среднее и стандартное гауссово распределение действий для данного состояния. Поскольку ...
вопрос задан: 5 March 2019 17:15
0
ответов

PyTorch - ручное вычисление градиента отличается от обратного

В настоящее время я внедряю градиенты политики в PyTorch. По какой-то причине, не относящейся к этому вопросу, я не могу напрямую вычислить градиенты с помощью backward () следующим образом (этот код работает отлично ...
вопрос задан: 2 March 2019 04:14
0
ответов

Почему моя политика сети оптимизируется в сторону нулевых потерь вместо отрицательных значений?

Я пытаюсь построить сеть политик в керасе, которая принимает состояние в качестве входных данных и выводит вероятности возможных действий. Моя модель определяется следующим образом и использует пользовательские потери ...
вопрос задан: 23 February 2019 17:38
0
ответов

Q-обучение для оптимального размещения заказа

Таким образом, последний поток, который я написал о Reinforcement Learning, был помечен как слишком широкий, что я полностью понял. Я никогда не работал с этим раньше, поэтому я пытаюсь изучить его самостоятельно - задача не из легких, так что ...
вопрос задан: 22 January 2019 14:54
0
ответов

Расположение алгоритма градиента политики в python / grappler для размещения устройства в источнике Tensorflow

Я перебирал эту статью: Оптимизация размещения устройств с помощью обучения с подкреплением, и я изучал соответствующий код в python / grappler. Кажется, что отправная точка ...
вопрос задан: 19 January 2019 00:02
0
ответов

Критик никогда не сходится в A2C

Я пытаюсь реализовать A2C с Lasagne + Theano (Python), чтобы решить стандартные проблемы с тренажерным залом OpenAI. Однако мой код, кажется, не сходится ни к чему полезному. Я уже пробовал разные вещи: я ...
вопрос задан: 18 January 2019 15:52
0
ответов

Как обучить искусственную нейронную сеть играть в Diablo 2 с помощью визуального ввода?

В настоящее время я пытаюсь получить ИНС для играть в видеоигру, и я надеялся получить некоторую помощь от замечательного сообщества здесь. Я остановился на Diablo 2. Таким образом, игра ведется в реальном времени и из ...
вопрос задан: 10 July 2018 15:49
0
ответов

Обучение с подкреплением с помощью переменных действий

Все Алгоритмы обучения с подкреплением, о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для создания ...
вопрос задан: 24 October 2017 12:28
0
ответов

Реализация обучения подкреплению свободной энергией

Я пытался реализовать алгоритм, описанный здесь, а затем протестировать его на «задаче большого действия», описанной в том же бумага. Обзор алгоритма: Вкратце, алгоритм использует RBM из ...
вопрос задан: 30 August 2012 11:58
0
ответов

Обучение нейронной сети с обучением с подкреплением

Я знаю основы нейронных сетей с прямой связью и знаю, как их обучать с помощью алгоритма обратного распространения, но я ищу для алгоритма, который я могу использовать для онлайн-обучения ИНС с помощью ...
вопрос задан: 23 May 2012 14:27
0
ответов

Библиотека обучения с подкреплением C ++ [закрыто]

Я искал библиотеку C ++, реализующую алгоритмы обучения с подкреплением, но был не очень доволен результатами. Я нашел Инструментарий обучения с подкреплением 2.0 от Технического университета Граца ...
вопрос задан: 6 January 2012 13:32