美文网首页
Policy Gradient CartPole-v0

Policy Gradient CartPole-v0

作者: ciferlv | 来源:发表于2018-02-10 08:43 被阅读0次
    • 这是我使用Policy Gradient来解决CartPole-v0任务的一个总结,参考了莫烦博客Andrej Karpathy博客及其翻译版,建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解,再结合莫烦博客里的内容自己实现一遍。
    • 我对Policy Gradient的理解及解决CartPole的方式如下:

    理解Policy Gradient

    • 我认为Policy Gradient是在做这样一件事情:优化遇到状态(state)时的动作(action)选择方式,即Policy。
    • 具体到CartPole这个任务中:
      • 遇到了一个state(这个state有4个参数,分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip,所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
      • 我们要根据自己的Policy来对处理state并作出action的选择,我最初的时候对Policy这个概念无法接受,这一步令我非常困惑,但其实所谓的Policy就是state的4个分量(Component)的组合方式,比如,我们将组合方式定位线性组合(Linear Combination),

    相关文章

      网友评论

          本文标题:Policy Gradient CartPole-v0

          本文链接:https://www.haomeiwen.com/subject/ljkctftx.html