机器学习分为:监督学习、非监督学习、强化学习。
下面从强化学习的概念、应用、特点等方面带大家认识强化学习,让大家对强化学习有一个初步的了解,最后会比较一下强化学习与监督学习、非监督学习之间的区别。
一 基本概念
1.1 强化学习的概念:
抽象模型.png还有一个重要的概念在图中没有直观的显示出来:policy策略,即给定一个state,应该选取什么样的action。强化学习的最终目标是找到一个最优的策略使得agent获得最多的reward。
举例:
Agent | Environment | state | reward | action | |
---|---|---|---|---|---|
下棋 | 自己 | 对手 | 棋现在的布局 | 最后输赢 | 下一步的落子 |
扫地机器人 | 机器人 | 机器人所在的房间 | 房间的整洁程度以及机器人自己现有的电量 | 捡垃圾获得正向奖励,没电获得负向奖励 | 去充电;不动;去捡垃圾 |
1.2 强化学习的应用
1.3 强化学习的特点:
- 1.trial and error 不断试验并在错误中总结经验,以便下次试验能成功
- 2.reward是延迟的,你做了这个动作之后不一定会立刻得到奖励,但是可能会在结束时得到奖励
- 3.explore探索和exploit利用
1.4 三者的区别和联系:
-
强化学习 vs 监督学习
强化学习的反馈是完全依据所采取的动作,而监督学习的反馈与采取的动作完全无关,它只参照正确的动作。
一个形象的比喻:监督学习,是有家教的好孩子,每一步都有指导方针,每天都有纠错,改错,进步,没什么随机性。而RL就是个野生的,一学期没人管,期末考试没考好,回家被揍一顿,类似于这种效果。 -
强化学习 vs 非监督学习
没有标签的强化学习是非监督学习吗?非监督学习是根据已有的数据寻找内在的规律或者模式,比如聚类、关联规则。强化学习的最终目的是最大化自己的收益。
二 Bellman Equation 贝尔曼方程
2.1 如何量化?
前面讲述了强化学习的最终目标是获得一个最优策略来最大化agent获得的奖励,那么,什么样的策略是最优的呢?
我们通过定义状态价值函数和动作价值函数来回答上述的问题。
先将之前强化学习中涉及的定义数学化:
原始定义 | 数学符号 | 含义 |
---|---|---|
reward | 表示t时刻agent获得的奖励 | |
state | 表示t时刻agent所处的状态 | |
action | 表示t时刻agent采取的行为动作 |
,代表一个终止态(可以没有终止状态)。
2.1.1 状态价值函数
一般的,reward是随机变量,所以我们定义求其期望。
其中代表从t时刻开始一直到终止状态agent获得的reward之和; 是一个衰减值,代表我们更关注眼前的“利益”,若,表示不进行reward衰减;下标表示一个策略。
现在就可以回答最优策略是什么这一问题了,最优策略就是可以最大化的那个策略了。即
称为最优价值函数。
2.1.2 动作价值函数
对应的动作价值函数是:
最优动作价值函数:
2.2 如何求解最优策略?
有了价值函数,那么如何求解最优策略?就需要引入bellman方程以及bellman最优方程,基于此,可以在寻找最优策略的“道路上”给予你一些灵感。
首先,来看一下状态价值函数与动作价值函数之间有什么关系,
该式子可以从下面的回溯图上直观的得到。
回溯图.png
2.2.1 bellman equation
贝尔曼方程就是用于揭示与,与之间关系的等式。
也就是将(1)式代入(2)式,(2)式代入(1)式。bellman方程如下:
2.2.2 bellman optimality equation
得到了bellman方程,就可以轻松得到bellman最优方程,从而得到最终我们想要的寻找最优策略的方法。
- 引理1:
先上结论:
证明如下:
可以看到,而,即找到了一个策略是优于的,假设不成立,结论得证。
基于引理1,我们得到bellman最优方程:
2.2.3 策略改进定理
来到这,就是最后一步了,策略改进定理:
证明如下:
得到,那么也就是。
根据策略改进定理,我们可以得出一个结论,当时刻agent在状态时,若可以找到一个动作使得,而剩下的时间遵循原策略,那么新策略至少和原策略一样好。
也就是说我们在每个时间步找到
结论:贪心策略就是最好的策略!
这一篇带大家简单了解了下强化学习的基础概念,相信大家已经了解了强化学习的目标是最优策略以及其量化表示,下一篇将为大家介绍如何求解该最优策略强化学习——表格型求解方法。
网友评论