美文网首页
强化学习导论——n-step Bootstrapping

强化学习导论——n-step Bootstrapping

作者: 初七123 | 来源:发表于2018-09-27 15:11 被阅读94次

从 TD(0) 到蒙特卡洛方法示意图

n-step的算法可以描述为

下面是 n-step TD 的 error reduction property

效果测试,可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好

对于策略学习问题,我们先看一下backup图

n-step Sarsa 算法描述

效果评测

如果考虑异策略的学习方式,off-policy n-step Sarsa 伪代码如下:

因为重要性采样比例中如果某一项为0会导致很大的方差,所以可以考虑下面的方式定义G

介绍一下n-step Tree Backup,它的特点是将未被执行的节点考虑进去

即G的定义为

算法的伪代码为

相关文章

网友评论

      本文标题:强化学习导论——n-step Bootstrapping

      本文链接:https://www.haomeiwen.com/subject/ufflnftx.html