美文网首页
强化学习一——Introduction

强化学习一——Introduction

作者: LIKESUNE | 来源:发表于2023-06-26 18:30 被阅读0次

    1. 基本概念

    比如AlphaGo下围棋,AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分,但是存在“好坏”之分。当前这个棋面下,下的“好”,这是一步好棋。下的“坏”,这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈,是“好”是“坏”?“好”“坏”具体是多少,可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域,赢得最后的胜利。

    在强化学习中,学习者和决策者统称为智能体(agent)。除了智能体自身外,智能体打交道的任何东西都可以称为环境(environment)。例如在自动驾驶中,自动驾驶车辆称为智能体,其学习驾驶策略并执行学到的驾驶策略;除了自动驾驶车辆之外的其他东西称为环境。

    2. 智能体的组成部分

    • 策略(Policy)策略是从状态到动作的一个映射,智能体根据策略来选取动作。这是强化学习的目标,我们就是为了学习一个最优策略,本质上是个概率分布。我们一般用\pi(a|s)来表示在s条件下行动是a的条件概率。
    • 价值函数 (Value Function)用价值函数来评估当前状态的好坏程度。有
    • 模型(Model)智能体对环境的建模。

    2.1策略

    策略就是告诉智能体在每个状态下该如何行动,即智能体在当前状态下根据策略来选取的动作,所以策略是从状态到动作的一个映射。强化学习的最终目标就是学到一个策略,告诉智能体该如何行动,在强化学习中策略一般用π来表示。策略分为:确定策略和随机策略。

    • 确定策略(Deterministic policy):\pi(a|s)=1, 处于状态s时,智能体选取的动作a是确定的。

    • 随机策略(Stochastic policy:π(a|s)=P[A_t=a|S_t = t],处于状态s时,智能体以一定概率选取动作a。随机策略\pi_(a|s)是智能体处于状态s时,关于选取动作a的概率分布。我们通常把随机策略表示成π_\theta(a|s),其中\theta是策略的参数。在深度强化学习中,\theta就是神经网络的权值(weights)。

    2.2 价值函数

    这里的价值函数有两种:
    State Value :表示的是根据策略\pi,某个状态s的价值,用v_\pi(s)表示。
    Action Value:表示的是根据策略\pi,某个状态s下,采取行动a的价值,用q_\pi(s,a)表示。
    在我们的value-based方法中,我们需要根据每个(s,a)对应的q_\pi(s,a)来进行a的选择。

    2.3 模型

    其实我们关注的主要就是P(r|s,a)P(s'|s,a)。如果这两个概率我们已经知道了求解最优策略叫做model-based,不知道这两个概率信息的情况下求解最优策略就叫做model-free。

    3. 策略求解的三个关键因素

    • State(状态): 当前 Environment和Agent所处的状态,因为Ghost一直在移动,豆子数目也在不停变化,Agent的位置也在不停变化,所以整个State处于变化中;这里特别强调一点,State包含了Agent和Environment的状态。
    • Action(行动): 基于当前的State,Agent可以采取哪些action,比如向左or右,向上or下;Action是和State强挂钩的,比如上图中很多位置都是有隔板的,很明显Agent在此State下是不能往左或者往右的,只能上下;
    • Reward(奖励): Agent在当前State下,采取了某个特定的action后,会获得环境的一定反馈就是Reward。这里面用Reward进行统称,虽然Reward翻译成中文是“奖励”的意思,但其实强化学习中Reward只是代表环境给予的“反馈”,可能是奖励也可能是惩罚。比如Pacman游戏中,Agent碰见了Ghost那环境给予的就是惩罚。

    4. 智能体分类

    基于策略(policy based)的智能体 直接学习策略\pi(a|s),不需要学习价值函数。
    基于价值(value based)的智能体 学习价值函数,通过价值函数隐式地得到策略。
    演员-评论家(Actor Critic)的智能体 是基于策略和基于价值的结合,既学习策略,也学习价值函数。

    相关文章

      网友评论

          本文标题:强化学习一——Introduction

          本文链接:https://www.haomeiwen.com/subject/uhhgydtx.html