美文网首页
动态规划

动态规划

作者: 阿山 | 来源:发表于2017-08-14 22:18 被阅读0次

动态规划用来计算最优策略,条件是环境已知。

首先,环境已知的话,我们可以计算最优的value function:根据贝尔曼方程:

最优值函数 最优action-value function

Policy Evaluation 策略估计

首先我们要根据已有的策略计算这个策略的value function:

value function的定义

所有的概率是已知的,直接计算。最好的方式是根据贝尔曼方程迭代计算:

value function迭代计算

迭代过程可以从以下伪代码中得出:


image.png

Policy Improvement

相关文章

网友评论

      本文标题:动态规划

      本文链接:https://www.haomeiwen.com/subject/ucuprxtx.html