Sarsa 的名称来源与上图所描述的序列:针对一个状态,个体通过行为策略产生一个行为,执行该行为进而产生一个状态行为对,环境收到个体的行为后会告诉个体即时奖励以及后续进入的状态;个体在状态时遵循当前的行为策略产生一个新的行为,个体此时,并不执行该行为,而是通过行为价值函数得到后一个状态行为对的价值,利用这个新的价值和即时奖励来更新前一个状态行为对的价值
与MC算法不同的是,Sarsa 算法在单个状态序列内的每一个时间步,在状态下采取一个行为到达状态后都要更新状态行为对的价值,这一过程同样使用贪婪策略进行策略迭代:
image.png算法描述如下:
Selection_096.png
网友评论