4.3 Policy Iteration

作者: rufuss | 来源:发表于2019-03-02 22:37 被阅读0次

《Reinforcement Learning: An Introduction》笔记
4.3 Policy Iteration

image.png

个人理解，这个算法的主要思路是：
（a）首先任意初始化一个策略 $\pi(s)$ ，和一个值函数 $v(s)$ ，
（b）之后，通过Policy Evaluation不断迭代值函数v(s)，直到近似收敛(until delta < theta)，这一步的依据是式(4.5)：

$v_{\pi}$ 的存在性保证了 $v_k$ 的收敛性。最终得到的值函数 $v(s)$ 是 $v_{\pi}$ 的近似。
(c) 得到策略 $\pi$ 及对应的值函数 $v(s)$ 可以看成是 $v_{\pi}(s)$ 后，通过policy improvement得到更优的策略，注意：

在有限马尔可夫决策过程中是一定可以取到的，因此在此时的值函数下，可以得到一个新的策略，这个策略在值函数V下比原来的策略更好，如果该新策略与原策略不同，则回到Policy Evaluation（b）步骤，确定新策略下的值函数，然后再执行Policy Improvement步骤，确定新值函数下更优的新新策略，如此循环反复，直到某k+1次Improvement后得到的策略函数与第k次得到的策略函数相同。

网友评论

本文标题：4.3 Policy Iteration

本文链接：https://www.haomeiwen.com/subject/dxquuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

4.3 Policy Iteration

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读