从 TD(0) 到蒙特卡洛方法示意图

n-step的算法可以描述为

下面是 n-step TD 的 error reduction property

效果测试,可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好

对于策略学习问题,我们先看一下backup图

n-step Sarsa 算法描述

效果评测

如果考虑异策略的学习方式,off-policy n-step Sarsa 伪代码如下:

因为重要性采样比例中如果某一项为0会导致很大的方差,所以可以考虑下面的方式定义G

介绍一下n-step Tree Backup,它的特点是将未被执行的节点考虑进去

即G的定义为

算法的伪代码为

网友评论