从 TD(0) 到蒙特卡洛方法示意图
n-step的算法可以描述为
下面是 n-step TD 的 error reduction property
效果测试,可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好
对于策略学习问题,我们先看一下backup图
n-step Sarsa 算法描述
效果评测
如果考虑异策略的学习方式,off-policy n-step Sarsa 伪代码如下:
因为重要性采样比例中如果某一项为0会导致很大的方差,所以可以考虑下面的方式定义G
介绍一下n-step Tree Backup,它的特点是将未被执行的节点考虑进去
即G的定义为
算法的伪代码为
网友评论