Policy Gradient CartPole-v0

Policy Gradient CartPole-v0

作者: ciferlv | 来源:发表于2018-02-10 08:43 被阅读0次

这是我使用Policy Gradient来解决CartPole-v0任务的一个总结，参考了莫烦博客，Andrej Karpathy博客及其翻译版，建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解，再结合莫烦博客里的内容自己实现一遍。
我对Policy Gradient的理解及解决CartPole的方式如下：

理解Policy Gradient

我认为Policy Gradient是在做这样一件事情：优化遇到状态(state)时的动作(action)选择方式，即Policy。
具体到CartPole这个任务中：
- 遇到了一个state(这个state有4个参数，分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip，所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
- 我们要根据自己的Policy来对处理state并作出action的选择，我最初的时候对Policy这个概念无法接受，这一步令我非常困惑，但其实所谓的Policy就是state的4个分量(Component)的组合方式，比如，我们将组合方式定位线性组合(Linear Combination)，

相关文章

网友评论

本文标题：Policy Gradient CartPole-v0

本文链接：https://www.haomeiwen.com/subject/ljkctftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Policy Gradient CartPole-v0|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！