1. 基本概念
比如AlphaGo下围棋,AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分,但是存在“好坏”之分。当前这个棋面下,下的“好”,这是一步好棋。下的“坏”,这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈,是“好”是“坏”?“好”“坏”具体是多少,可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域,赢得最后的胜利。
在强化学习中,学习者和决策者统称为智能体(agent)。除了智能体自身外,智能体打交道的任何东西都可以称为环境(environment)。例如在自动驾驶中,自动驾驶车辆称为智能体,其学习驾驶策略并执行学到的驾驶策略;除了自动驾驶车辆之外的其他东西称为环境。
2. 智能体的组成部分
- 策略(Policy)策略是从状态到动作的一个映射,智能体根据策略来选取动作。这是强化学习的目标,我们就是为了学习一个最优策略,本质上是个概率分布。我们一般用来表示在s条件下行动是a的条件概率。
- 价值函数 (Value Function)用价值函数来评估当前状态的好坏程度。有
- 模型(Model)智能体对环境的建模。
2.1策略
策略就是告诉智能体在每个状态下该如何行动,即智能体在当前状态下根据策略来选取的动作,所以策略是从状态到动作的一个映射。强化学习的最终目标就是学到一个策略,告诉智能体该如何行动,在强化学习中策略一般用π来表示。策略分为:确定策略和随机策略。
-
确定策略(Deterministic policy):, 处于状态s时,智能体选取的动作a是确定的。
-
随机策略(Stochastic policy:,处于状态s时,智能体以一定概率选取动作a。随机策略是智能体处于状态s时,关于选取动作a的概率分布。我们通常把随机策略表示成,其中是策略的参数。在深度强化学习中,就是神经网络的权值(weights)。
2.2 价值函数
这里的价值函数有两种:
State Value :表示的是根据策略,某个状态s的价值,用表示。
Action Value:表示的是根据策略,某个状态s下,采取行动a的价值,用表示。
在我们的value-based方法中,我们需要根据每个(s,a)对应的
2.3 模型
其实我们关注的主要就是和。如果这两个概率我们已经知道了求解最优策略叫做model-based,不知道这两个概率信息的情况下求解最优策略就叫做model-free。
3. 策略求解的三个关键因素
- State(状态): 当前 Environment和Agent所处的状态,因为Ghost一直在移动,豆子数目也在不停变化,Agent的位置也在不停变化,所以整个State处于变化中;这里特别强调一点,State包含了Agent和Environment的状态。
- Action(行动): 基于当前的State,Agent可以采取哪些action,比如向左or右,向上or下;Action是和State强挂钩的,比如上图中很多位置都是有隔板的,很明显Agent在此State下是不能往左或者往右的,只能上下;
- Reward(奖励): Agent在当前State下,采取了某个特定的action后,会获得环境的一定反馈就是Reward。这里面用Reward进行统称,虽然Reward翻译成中文是“奖励”的意思,但其实强化学习中Reward只是代表环境给予的“反馈”,可能是奖励也可能是惩罚。比如Pacman游戏中,Agent碰见了Ghost那环境给予的就是惩罚。
4. 智能体分类
基于策略(policy based)的智能体 直接学习策略,不需要学习价值函数。
基于价值(value based)的智能体 学习价值函数,通过价值函数隐式地得到策略。
演员-评论家(Actor Critic)的智能体 是基于策略和基于价值的结合,既学习策略,也学习价值函数。
网友评论