美文网首页
《白话强化学习与Pytorch》 (5) SARSA 算法与Q

《白话强化学习与Pytorch》 (5) SARSA 算法与Q

作者: 银色尘埃010 | 来源:发表于2020-05-02 14:29 被阅读0次
《白话强化学习与Pytorch》第五章 时间差分。主要个人记录复习,慢慢补充。

为了准确地 评估一个状态的估值,我们可以使用

  • 动态规划(DP)。思路简单,但是实际操作有一定的难度,需要通过模型在一个树上从上到下传递,才能把状态的估值计算准确。
  • 蒙特卡罗法(MC)。操作简单,需要在一个Episode结束之后才能返回一个状态的更新。

为了更加直接的返回估值,就需要学习时间差分法(Time Difference, TD)。时间差分法,走一步就估算一步,他的学习效率看起来比动态规划法和蒙特卡罗法更高一点。
时间差分法中的两个经典的算法:SARSA算法Q-learning算法

一、 SARSA算法

"SARSA"名字并不是一个单词而是,多个单词的缩写。S,A,R分别代表状态(State),动作(Action),奖励(Reward)。这个流程体现在下图:


SARSA算法流程

在迭代的时候,我们首先基于𝜖−贪婪法在当前状态𝑆选择一个动作𝐴,这样系统会转到一个新的状态𝑆′, 同时给我们一个即时奖励𝑅, 在新的状态𝑆′,我们会基于𝜖−贪婪法在状态𝑆‘′选择一个动作𝐴′,但是注意这时候我们并不执行这个动作𝐴′,只是用来更新的我们的价值函数,价值函数的更新公式是:

Q(S,A) \leftarrow Q(S,A) +\alpha\left(R+\gamma Q\left(S^{\prime},A^{\prime}\right) - Q(S,A) \right)

SARSA算法伪代码

SARSA算法流程

on-policy

二、Q-Learning算法

Q-learning流程

它基于状态𝑆′,没有使用𝜖−贪婪法选择𝐴′,而是使用贪婪法选择𝐴′,也就是说,选择使𝑄(𝑆′,A′)最大的𝑎作为𝐴′来更新价值函数。用数学公式表示就是:

Q(S, A) \leftarrow Q(S, A)+\alpha\left(R+\gamma \max _{A^{\prime}} Q\left(S^{\prime}, A^{\prime}\right)-Q(S, A)\right)

Q-learning算法

off-policy

三、SARSA vs Q-Learning

References

1、《白话强化学习与Pytorch》,高杨 叶振斌 著。

相关文章

  • 《白话强化学习与Pytorch》 (5) SARSA 算法与Q

    《白话强化学习与Pytorch》第五章 时间差分。主要个人记录复习,慢慢补充。 为了准确地 评估一个状态的估值,...

  • 基于Policy的强化学习算法

    在文章基于Value的强化学习算法中,介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中,...

  • 入门

    常见的强化学习算法有三类 通过价值行为选择1. Q learning2. sarsa3. Deep Q netwo...

  • 2020-03-07

    白话强化学习与PyTorch中的Q-learn大家都看完后说a=1不好,其实在解决这个路径问题的时候,肯定是a=1...

  • 强化学习——Sarsa

    一、什么是Sarsa 在强化学习中 Sarsa 和 Q learning及其类似,这节内容会基于之前所讲的 Q l...

  • 白话强化学习之Sarsa与Sarsa-lambda

    Sarsa Sarsa的学习过程和Q-Learning基本一样,不同的地方是Q-Learning在走下一步的时候是...

  • SARSA 算法简介

    State–action–reward–state–action (SARSA) 也是强化学习中很重要的一个算法,...

  • 深度强化学习-Sarsa和Q-Learning的区别

    和AlphaGo中的MCTS不同Q-Learning和Sarsa都是基于TD的强化学习方法 Q(s, a) 表示动...

  • 强化学习之Sarsa

    在强化学习中,Sarsa和Q-Learning很类似,本次内容将会基于之前所讲的Q-Learning的内容。 目录...

  • AI学习笔记——Sarsa算法

    上一篇文章介绍了强化学习中的Q-Learning算法,这篇文章介绍一个与Q-Learning十分类似的算法——Sa...

网友评论

      本文标题:《白话强化学习与Pytorch》 (5) SARSA 算法与Q

      本文链接:https://www.haomeiwen.com/subject/hnmfghtx.html