美文网首页
强化学习SARSA

强化学习SARSA

作者: 数据智能谷 | 来源:发表于2019-10-20 07:36 被阅读0次
image.png image.png

当机器人处于S0的状态时,它的目标Q值是:
R(S1) + γ*maxa Q(S1,a)。此时他还在S0的位置上,但是已经在计算S1上的最大Q值了。但是此时它并没有行动,也不一定会在S1采取Q值最大Q(S1, A2)的行动。它还有概率随机选择其他的行动 (ε贪婪方法(ε -Greedy method))

在Sarsa算法中,机器人的目标是

R(S1) + γ*Q(S1,A)

或t状态:R(St+1) + γ*Q(St+1,At+1)

至于A是多少,完全取决于机器人实际上选择的哪一个Action。机器人有90%的概率会选择Q值最大的Action(A2),还有10%的概率会随机选择一个Action。

所以,Sarsa的算法是这样的。

image

除了其目标Q值与Q learning 有所不同之外,其他的都是一模一样的。

Sarsa是在线学习(On Policy)的算法,因为他是在行动中学习的,使用了两次greedy方法来选择出了Q(S,A)和q(S',A')。而Q learning离线学习(Off Policy)的算法,QLearning选择Q(S,A)用了greedy方法,而计算A(S',A')时用的是max方法,而真正选择的时候又不一定会选择max的行动。

相关文章

网友评论

      本文标题:强化学习SARSA

      本文链接:https://www.haomeiwen.com/subject/txmclctx.html