美文网首页书房就是我的全世界数据科学家
强化学习 9: 当 Action 的空间连续时

强化学习 9: 当 Action 的空间连续时

作者: 不会停的蜗牛 | 来源:发表于2018-11-25 23:03 被阅读48次

    如果 Action 的空间不是离散的而是连续的时候要怎么做呢?

    之前骑自行车的例子中,action 可以是向左或者向右,现在的话可能是一个实数值的区间。

    例如在机器人控制中就经常是这样的情况,我们通过电机控制着 agent 的所有关节还有四肢,而电机又由电压控制,电压就可以选择一定范围的值。

    这个时候就不能再用一个神经元代表1个action,再用 softmax 进行分类了。

    那么如何用神经网络来处理这种连续空间的问题呢?一种方案是直接做回归,也是最明显的一种方式,即可以用 scikit learn 里面的回归模型,目标是最小化损失函数 MSE。

    或者可以预测 action 空间的正态分布。即我们要预测采取某个 action 的概率,这个概率是服从一个正态分布的,方差为 1。 这时可以用回归模型或者神经网络训练。

    后面文章中会通过代码来具体看如何做。

    Practical Reinforcement Learning

    学习资料:

    Practical Reinforcement Learning

    推荐阅读 历史技术博文链接汇总

    http://www.jianshu.com/p/28f02bb59fe5

    也许可以找到你想要的:

    [入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


    Hello World !

    This is 不会停的蜗牛 Alice !

    🐌 要开始连载强化学习系列啦!

    今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

    相关文章

      网友评论

      本文标题:强化学习 9: 当 Action 的空间连续时

      本文链接:https://www.haomeiwen.com/subject/kawmqqtx.html