reinforcement-learning - список вопросов по программированию reinforcement-learning

5

ответов

Хорошие реализации укрепления, учащегося?

Для проекта ай-класса я должен реализовать алгоритм изучения укрепления, который бьет простую игру Тетриса. Игра записана в Java, и у нас есть исходный код. Я знаю основы...

вопрос задан: 7 April 2015 16:09

4

ответа

Как использовать нейронные сети для решения “мягких” решений?

Я рассматриваю использование нейронной сети для включения моих врагов в игре стрелка пространства, которую я создаю, и я задаюсь вопросом; как Вы обучаете нейронные сети, когда нет никакого категорического хорошего набора выводов...

neural-network artificial-intelligence reinforcement-learning

вопрос задан: 4 January 2016 15:51

3

ответа

Как я выполняю Саттон и “укрепление Barton, изучая” код Lisp?

Я читал много об Укреплении, Учащемся в последнее время, и я нашел "Укрепление, Учащееся: Введение", чтобы быть превосходным руководством. Услужливо провице-исходный код автора для много...

mcl reinforcement-learning common-lisp artificial-intelligence lisp

вопрос задан: 17 October 2017 14:18

3

ответа

Какой модуль (модули) я должен включать, чтобы заставить 5.seconds работать в Ruby?

Поскольку, по-видимому, требуют, чтобы 'дата' не включала часы метода или секунды и т.д.: неопределенный метод 'часы' для 5:Fixnum (NoMethodError) Является мной пропускающий что-то? 5.seconds только что-то, что Вы можете...

reinforcement-learning

вопрос задан: 21 May 2010 18:37

2

ответа

Отрицательные вознаграждения в QLearning

Давайте предположим, что мы находимся в комнате, где наш агент может пройти xx и yy ось. В каждой точке он может переместиться вверх, вниз, вправо и влево. Таким образом, наше пространство состояний может быть определено (x, y) и наши действия в каждом...

artificial-intelligence reinforcement-learning

вопрос задан: 4 December 2009 00:54

2

ответа

Каково использование рекуррентных нейронных сетей при использовании их с Укреплением, Учащимся?

Я действительно знаю, что feedforward многослойные нейронные сети с backprop используются с Укреплением, Учась, чтобы помочь ему обобщить действия, которые делает наш агент. Это, если у нас есть большое пространство состояний, мы...

language-agnostic artificial-intelligence neural-network reinforcement-learning

вопрос задан: 23 November 2009 14:19

1

ответ

Ошибка оптимизатора Адама: одна из переменных, необходимых для вычисления градиента, была изменена операцией на месте

Я пытаюсь реализовать алгоритм атомуизации Actor-Critic, который отличается от базового алгоритма Actor-критика, он немного изменился. В любом случае, я использовал оптимизатор Adam и реализовал с ...

optimization error-handling deep-learning pytorch reinforcement-learning

вопрос задан: 14 April 2019 08:42

1

ответ

Критерии соответствия: On-line против Off-line λ-return алгоритма

У меня есть некоторые проблемы с выяснением, почему вам нужно пересматривать все временные шаги из эпизода на каждом горизонте для онлайн-версии алгоритма λ-возврата из книги: Армирование ...

lambda return offline reinforcement-learning online-algorithm

вопрос задан: 6 March 2019 12:02

1

ответ

Как я могу применить обучение с подкреплением к пространствам непрерывных действий?

Я пытаюсь заставить агента выучить движения мыши, необходимые для наилучшего выполнения некоторой задачи в условиях обучения с подкреплением (т. Е. Сигнал вознаграждения является единственной обратной связью для учебы). Я надеюсь ...

algorithm machine-learning reinforcement-learning q-learning

вопрос задан: 19 February 2019 08:56

1

ответ

В чем разница между Q-Learning и SARSA?

Хотя я знаю, что SARSA входит в политику, а Q-Learning вне политики, при просмотре их формул (мне) трудно увидеть какую-либо разницу между этими двумя алгоритмами. Согласно книге ...

artificial-intelligence reinforcement-learning q-learning sarsa

вопрос задан: 30 January 2019 02:32

1

ответ

Поиск (Python) проекта, который сравнивает обучение в области подкрепления с DeepRL

Существует обучение по подкреплению без какой-либо нейронной сети (например, Q-Learning), и есть обучение по глубокому подкреплению (например, Deep Q-Learning). Уже есть проект, который обеспечивает сравнение ...

deep-learning reinforcement-learning

вопрос задан: 19 January 2019 15:48

1

ответ

Несоответствия между tf.contrib.layer.fully_connected, tf.layers.dense, tf.contrib.slim.fully_connected, tf.keras.layers.Dense

Я пытаюсь реализовать градиент политики для проблемы контекстуального бандита (https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-1-5-contextual-bandits-bff01d1aad9c). Я ...

python tensorflow reinforcement-learning q-learning

вопрос задан: 16 January 2019 17:02

1

ответ

в торговле акциями, как измерить количество акций

Я работаю над анализом и прогнозированием фондового рынка с использованием методов машинного обучения, особенно с усиленным обучением. Я пытаюсь предсказать короткую, длинную и плоскую. (купить, держать, продавать). (любой ...

artificial-intelligence reinforcement-learning stock policy-gradient-descent

вопрос задан: 16 January 2019 06:17

1

ответ

OOM в TensorFlow DQN с большим набором действий

Ниже приведен код для сети Deep Q в TensorFlow. При выполнении этого происходит ошибка OOM при инициализации переменных TensorFlow. Я думаю, что это потому, что моя модель эксперимента имеет гораздо больший набор действий (...

tensorflow deep-learning out-of-memory reinforcement-learning

вопрос задан: 13 July 2018 10:15

1

ответ

Усиление обучения в C # [закрыто]

Я намереваюсь использовать обучение подкреплению в моем проекте, но я не знаю, как его реализовать. Поэтому я ищу библиотеку с различными алгоритмами RL, которую я могу использовать в своем проекте на C #. Спасибо ...

c# machine-learning neural-network reinforcement-learning

вопрос задан: 8 June 2011 16:41

1

ответ

Альфа и Гамма параметры в QLearning

Какое значение к алгоритму это имеет наличием большого или маленького гамма значения? В моем оптическом, пока это ни один 0 или 1, это должно работать точно то же. С другой стороны, безотносительно гаммы I...

language-agnostic artificial-intelligence reinforcement-learning

вопрос задан: 6 December 2009 07:37

0

ответов

Когда мне следует использовать опорные векторные машины, а не искусственные нейронные сети?

Я знаю, что SVM якобы являются «убийцами ANN» в том смысле, что они автоматически выбирают сложность представления и находят глобальный оптимум (см. Здесь некоторые цитаты с одобрением SVM) . Но вот где мне неясно ...

machine-learning neural-network svm reinforcement-learning

вопрос задан: 16 June 2019 12:58

0

ответов

Java 2D хеш-таблицы для обучения Q

В настоящее время я пытаюсь сделать Q обучения для Игры и хотел бы создать таблицу Q обучения. По сути, я хотел бы иметь двухмерную хэш-таблицу, состоящую из четырех массивов, которые содержат действия (Jump, ...

java hashtable reinforcement-learning q-learning game-ai

вопрос задан: 21 March 2019 18:35

0

ответов

Использование Openai Spaces для измененной среды

У меня есть двумерный массив нормализованных данных. Я использую space = np.array ([0,1, ... 366], [0,0.000001, ..... 1]). Мне нужно приспособить это как пространство наблюдения в обучении подкреплению. Я расширил ...

python python-3.x deep-learning reinforcement-learning openai-gym

вопрос задан: 18 March 2019 01:07

0

ответов

Аппроксиматор логарифмической вероятности загара (среднее + стандартное отклонение * z)

Я пытался понять блог, посвященный критике мягких актеров, где у нас есть нейронная сеть, представляющая политику, которая выводит среднее и стандартное гауссово распределение действий для данного состояния. Поскольку ...

optimization mathematical-optimization reinforcement-learning stochastic log-likelihood

вопрос задан: 5 March 2019 17:15

0

ответов

PyTorch - ручное вычисление градиента отличается от обратного

В настоящее время я внедряю градиенты политики в PyTorch. По какой-то причине, не относящейся к этому вопросу, я не могу напрямую вычислить градиенты с помощью backward () следующим образом (этот код работает отлично ...

python deep-learning pytorch reinforcement-learning

вопрос задан: 2 March 2019 04:14

0

ответов

Почему моя политика сети оптимизируется в сторону нулевых потерь вместо отрицательных значений?

Я пытаюсь построить сеть политик в керасе, которая принимает состояние в качестве входных данных и выводит вероятности возможных действий. Моя модель определяется следующим образом и использует пользовательские потери ...

python tensorflow keras reinforcement-learning

вопрос задан: 23 February 2019 17:38

0

ответов

Q-обучение для оптимального размещения заказа

Таким образом, последний поток, который я написал о Reinforcement Learning, был помечен как слишком широкий, что я полностью понял. Я никогда не работал с этим раньше, поэтому я пытаюсь изучить его самостоятельно - задача не из легких, так что ...

python reinforcement-learning q-learning

вопрос задан: 22 January 2019 14:54

0

ответов

Расположение алгоритма градиента политики в python / grappler для размещения устройства в источнике Tensorflow

Я перебирал эту статью: Оптимизация размещения устройств с помощью обучения с подкреплением, и я изучал соответствующий код в python / grappler. Кажется, что отправная точка ...

python algorithm tensorflow reinforcement-learning

вопрос задан: 19 January 2019 00:02

0

ответов

Критик никогда не сходится в A2C

Я пытаюсь реализовать A2C с Lasagne + Theano (Python), чтобы решить стандартные проблемы с тренажерным залом OpenAI. Однако мой код, кажется, не сходится ни к чему полезному. Я уже пробовал разные вещи: я ...

neural-network deep-learning theano reinforcement-learning

вопрос задан: 18 January 2019 15:52

0

ответов

Как обучить искусственную нейронную сеть играть в Diablo 2 с помощью визуального ввода?

В настоящее время я пытаюсь получить ИНС для играть в видеоигру, и я надеялся получить некоторую помощь от замечательного сообщества здесь. Я остановился на Diablo 2. Таким образом, игра ведется в реальном времени и из ...

machine-learning computer-vision neural-network video-processing reinforcement-learning

вопрос задан: 10 July 2018 15:49

0

ответов

Обучение с подкреплением с помощью переменных действий

Все Алгоритмы обучения с подкреплением, о которых я читал, обычно применяются к одному агенту, который выполняет фиксированное количество действий. Существуют ли какие-либо алгоритмы обучения с подкреплением для создания ...

machine-learning reinforcement-learning planning

вопрос задан: 24 October 2017 12:28

0

ответов

Реализация обучения подкреплению свободной энергией

Я пытался реализовать алгоритм, описанный здесь, а затем протестировать его на «задаче большого действия», описанной в том же бумага. Обзор алгоритма: Вкратце, алгоритм использует RBM из ...

artificial-intelligence bayesian-networks reinforcement-learning matlab machine-learning

вопрос задан: 30 August 2012 11:58

0

ответов

Обучение нейронной сети с обучением с подкреплением

Я знаю основы нейронных сетей с прямой связью и знаю, как их обучать с помощью алгоритма обратного распространения, но я ищу для алгоритма, который я могу использовать для онлайн-обучения ИНС с помощью ...

algorithm neural-network reinforcement-learning machine-learning language-agnostic

вопрос задан: 23 May 2012 14:27

0

ответов

Библиотека обучения с подкреплением C ++ [закрыто]

Я искал библиотеку C ++, реализующую алгоритмы обучения с подкреплением, но был не очень доволен результатами. Я нашел Инструментарий обучения с подкреплением 2.0 от Технического университета Граца ...

c++ machine-learning reinforcement-learning

вопрос задан: 6 January 2012 13:32