美文网首页
强化学习导论——n-step Bootstrapping

强化学习导论——n-step Bootstrapping

作者: 初七123 | 来源:发表于2018-09-27 15:11 被阅读94次

    从 TD(0) 到蒙特卡洛方法示意图

    n-step的算法可以描述为

    下面是 n-step TD 的 error reduction property

    效果测试,可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好

    对于策略学习问题,我们先看一下backup图

    n-step Sarsa 算法描述

    效果评测

    如果考虑异策略的学习方式,off-policy n-step Sarsa 伪代码如下:

    因为重要性采样比例中如果某一项为0会导致很大的方差,所以可以考虑下面的方式定义G

    介绍一下n-step Tree Backup,它的特点是将未被执行的节点考虑进去

    即G的定义为

    算法的伪代码为

    相关文章

      网友评论

          本文标题:强化学习导论——n-step Bootstrapping

          本文链接:https://www.haomeiwen.com/subject/ufflnftx.html