策略迭代(policy iteration)解决冰湖(Froze

作者: 北落师门_ | 来源:发表于2020-04-27 01:16 被阅读0次

话不多说直接上policy iteration的算法

接下来进行python实现:

首先定义好环境，这里分两步，一是拿一个随机策略并初始化其值函数为0数组，然后进行策略迭代，再根据返回的最优策略进行试验求得回报

初始化环境

接下来进行策略迭代，分为三步1.初始化;2.策略估计;3.策略改进

策略迭代

接下来实现上图中的第二步策略估计

策略估计

接下来进行策略改进

策略改进

最后运行整个环境

至此实现策略迭代，具体代码可以在https://github.com/JUSTLOVELE/MobileDevStudy/blob/master/RL/gym_case/policy_iteration.py 中查阅

其实策略迭代就是先估计，在改进策略，直到收敛，如果不收敛就继续估计继续改进。。。实现后其实可以得知策略迭代是先求解出最优解，然后再去和环境进行交互求得最大收益，之所以在和环境交互前能求最优策略是提前知道了环境的转移概率P和回报函数R，然后再利用动态规划和贝尔曼最优方程，但真实世界中哪里能做到先知先觉呢?恐怕转移概率和回报函数一个都得不到。

网友评论

本文标题：策略迭代(policy iteration)解决冰湖(Froze

本文链接：https://www.haomeiwen.com/subject/grhewhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

策略迭代(policy iteration)解决冰湖(Froze

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读