Policy Gradient CartPole-v0
作者:
ciferlv | 来源:发表于
2018-02-10 08:43 被阅读0次
- 这是我使用Policy Gradient来解决CartPole-v0任务的一个总结,参考了莫烦博客,Andrej Karpathy博客及其翻译版,建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解,再结合莫烦博客里的内容自己实现一遍。
- 我对Policy Gradient的理解及解决CartPole的方式如下:
理解Policy Gradient
- 我认为Policy Gradient是在做这样一件事情:优化遇到状态(state)时的动作(action)选择方式,即Policy。
- 具体到CartPole这个任务中:
- 遇到了一个state(这个state有4个参数,分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip,所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
- 我们要根据自己的Policy来对处理state并作出action的选择,我最初的时候对Policy这个概念无法接受,这一步令我非常困惑,但其实所谓的Policy就是state的4个分量(Component)的组合方式,比如,我们将组合方式定位线性组合(Linear Combination),
本文标题:Policy Gradient CartPole-v0
本文链接:https://www.haomeiwen.com/subject/ljkctftx.html
网友评论