强化学习导论——On-policy Control with A

作者: 初七123 | 来源:发表于2018-10-17 20:13 被阅读23次

On-Policy Prediction 中的方法很容易扩展到控制学习问题中

完整的伪代码

同理有n-step的Sarsa

设平均回报

可以据此定义新的价值函数

并且有新的误差

差分半梯度 n-step Sarsa

在函数近似情况下，是否需要衰减因子成为一个疑问
假设一种情况：一个无穷的决策序列，并且每个阶段的状态值s都差不多，考虑一个特殊情况，所有的s都一致
这时加不加衰减因子对结果没有影响

衰减因子失去作用的根本原因是是，函数近似失去了policy improvement theorem

n-step Differential Semi-gradient Sarsa

网友评论

本文标题：强化学习导论——On-policy Control with A

本文链接：https://www.haomeiwen.com/subject/liclnftx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！