美文网首页
[强化学习] Saras 算法

[强化学习] Saras 算法

作者: winddy_akoky | 来源:发表于2018-10-15 15:20 被阅读0次
    image.png

    Sarsa 的名称来源与上图所描述的序列:针对一个状态S,个体通过行为策略产生一个行为A,执行该行为进而产生一个状态行为对(S,A),环境收到个体的行为后会告诉个体即时奖励R以及后续进入的状态S^\prime;个体在状态S^\prime时遵循当前的行为策略产生一个新的行为A^\prime,个体此时,并不执行该行为,而是通过行为价值函数得到后一个状态行为对(S^\prime, A^\prime)的价值,利用这个新的价值和即时奖励R来更新前一个状态行为对(S,A)的价值

    与MC算法不同的是,Sarsa 算法在单个状态序列内的每一个时间步,在状态S下采取一个行为A到达状态S^\prime后都要更新状态行为对(S,A)的价值Q(S,A),这一过程同样使用\epsilon -贪婪策略进行策略迭代:

    image.png

    算法描述如下:


    Selection_096.png

    相关文章

      网友评论

          本文标题:[强化学习] Saras 算法

          本文链接:https://www.haomeiwen.com/subject/qcyfzftx.html