如果 Action 的空间不是离散的而是连续的时候要怎么做呢?
之前骑自行车的例子中,action 可以是向左或者向右,现在的话可能是一个实数值的区间。
例如在机器人控制中就经常是这样的情况,我们通过电机控制着 agent 的所有关节还有四肢,而电机又由电压控制,电压就可以选择一定范围的值。
这个时候就不能再用一个神经元代表1个action,再用 softmax 进行分类了。
那么如何用神经网络来处理这种连续空间的问题呢?一种方案是直接做回归,也是最明显的一种方式,即可以用 scikit learn 里面的回归模型,目标是最小化损失函数 MSE。
或者可以预测 action 空间的正态分布。即我们要预测采取某个 action 的概率,这个概率是服从一个正态分布的,方差为 1。 这时可以用回归模型或者神经网络训练。
后面文章中会通过代码来具体看如何做。
Practical Reinforcement Learning学习资料:
Practical Reinforcement Learning
推荐阅读 历史技术博文链接汇总
http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的:
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]
Hello World !
This is 不会停的蜗牛 Alice !
🐌 要开始连载强化学习系列啦!
今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!
网友评论