美文网首页
强化学习导论——On-policy Control with A

强化学习导论——On-policy Control with A

作者: 初七123 | 来源:发表于2018-10-17 20:13 被阅读23次

    On-Policy Prediction 中的方法很容易扩展到控制学习问题中

    完整的伪代码

    同理有n-step的Sarsa

    设平均回报

    可以据此定义新的价值函数

    并且有新的误差

    差分半梯度 n-step Sarsa

    在函数近似情况下,是否需要衰减因子成为一个疑问
    假设一种情况:一个无穷的决策序列,并且每个阶段的状态值s都差不多,考虑一个特殊情况,所有的s都一致
    这时加不加衰减因子对结果没有影响

    衰减因子失去作用的根本原因是是,函数近似失去了policy improvement theorem

    n-step Differential Semi-gradient Sarsa

    相关文章

      网友评论

          本文标题:强化学习导论——On-policy Control with A

          本文链接:https://www.haomeiwen.com/subject/liclnftx.html