机器学习西瓜书 Day23 强化学习

作者: 皇家马德里主教练齐达内 | 来源:发表于2018-05-31 11:02 被阅读2次

机器学习西瓜书 Day23 强化学习
基础
《西瓜书笔记》（1）机器学习概述
机器学习笔记-文本分类（一）概述
神经网络--资料篇
机器学习入门
强化学习是这样一种学习
一起学习机器学习（1）：基本概念
AI学习笔记之——强化学习(Reinforcement Lear
深度学习学习资料汇总

p371 - p397
今天最后一天啦
话不多说开始last chapter第16章

第16章强化学习

16.1 任务与奖赏

种瓜？在过程中我们做什么，并不能立即获得最终奖赏，仅能得到一个当前反馈。我们需要多次种瓜，不断摸索，才能总结出较好的种瓜策略。

强化学习任务四元组 E = <X,A,P,R>
X：状态
A：动作
P：条件转移概率： X x A x X - > R
R：奖赏： X x A x X -> R

机器要做的事通过在环境中不断尝试而学得一个策略，根据这个策略，输入状态x能得到接下来的动作a。 a=π(x)。
策略有两种表示方法，
一种是直接表示为函数π:X->A，
另一种是概率表示π：XxA->R

策略的优劣取决于长期执行这一策略后得到的累积奖赏。
常用的有：T步累积奖赏、γ折扣累计奖赏。

强化学习 vs 监督学习
若将强化学习中的状态对应为监督学习的示例
“动作”对应为“标记”
那么强化学习中的策略实际上就相当于监督学习中的分类器。
因此强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

16.2.1 探索与利用

强化学习与监督学习的显著不同：
机器通过尝试来发现各个动作产生的结果，而没有训练数据告诉机器应当做哪个动作

欲最大化奖赏要考虑两个方面：
1）要知道每个动作带来的奖赏：探索
2）执行奖赏最大的动作：利用

单步强化学习任务对应了一个理论模型：K-摇臂赌博机
若仅为探索每个摇臂的期望奖赏：仅探索
若仅为执行奖赏最大的动作：仅利用

探索和利用是矛盾的：探索-利用窘境

16.2.2 ε-贪心

基于一个概率来对探索和利用进行折中
每次以ε的概率来进行探索，以1-ε来利用

算法过程伪码 p375

16.2.3 Softmax

Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。
若各摇臂的平均奖赏相当，则选取各arm的概率也相当
若某些arm的平均奖赏明显高，则选他们的概率也会更高

概率分配基于Boltzmann分布 p376式16.4
定义了一个“温度”，温度τ越小则平均奖赏高的摇臂选取的概率越高。
τ趋近于0算法趋于仅利用
τ趋近于无穷大算法趋于仅探索

过程伪码见p376 图16.5

总的来说K-摇臂赌博机有局限，因为没有考虑强化学习任务马尔科夫决策过程的结构。

16.3 有模型学习

如果四元组E=<X,A,P,R>一致，这样的情形称为“模型已知”。
在已知模型的环境中学习称为“有模型学习”。

16.3.1 策略评估

模型已知，对任意策略π能估计出策略带来的期望累积策略。
基于T步累计奖赏的策略评估算法 p379图16.7

16.3.2 策略改进

对策略累积奖赏进行评估后，若发现非最优则希望对其改进，理想的是最大化奖赏。

利用p380 最优Bellman等式：
将策略选择的动作改变为当前最优的动作。

16.3.3 策略迭代与值迭代

将16.3.1 和 16.3.2结合起来即可得到求解最优解的方法。
从一个初始策略（如随机策略）出发，先进行策略评估，然后改进策略，评估改进策略，再进一步改进...不断迭代进行评估与改进，直到策略收敛。

p381 图16.8 基于T步累积奖赏的策略迭代改进算法
p382 图16.9 基于T步累积奖赏的值迭代算法

总的来说，在模型已知时强化学习任务可以归结为动态规划的寻优问题。

16.4 免模型学习

比有模型要困难得多

16.4.1 蒙特卡罗强化学习

p384 图16.10 同策略蒙特卡洛强化学习
p386 图16.11 异策略蒙特卡洛强化学习

16.4.2 时序差分学习

p388 图16.12 Sarsa算法
p388 图16.13 Q-学习算法

16.5 值函数近似

若状态空间不是有限的。
现实生活中所面临的状态空间往往是连续的，有无穷多个状态。

p390 图16.14 线性值函数近似Sarsa算法

16.6 模仿学习

种瓜任务时能得到农业专家的种植过程范例

16.6.1 直接模仿学习

有了专家的决策轨迹数据。
那就可以把专家的状态-动作对抽取出来，构造新的数据集合D。
即把状态作为特征，动作作为标记。
然后根据这个D使用分类或回归算法即可学得新的策略模型。

16.6.2 逆强化学习

设计奖赏函数是很困难的
从人类专家提供的数据反推奖赏函数，这就是“逆强化学习”。

知道状态空间X，动作空间A，专家的决策轨迹数据集D。

逆强化学习的基本思想：
欲使机器做出与范例一致的行为，等价于在某个奖赏函数的环境中求解最优策略，使最优策略所产生的轨迹与范例数据一致。
即：寻找某种奖赏函数使范例数据最优。

p392 图16.15 迭代式逆强化学习算法

尾注

啊啊啊终于看完了/(ㄒoㄒ)/~~
一刷看完这一个月收获还是不少的
但还是感觉任重道远呀
这本书想要啃透怎么还得再刷两遍的感觉
不过确实是一本不错的入门书哎

这一个月坚持的还是不错的
虽然中间还是有几天断了
但总归是一个月看完一遍了
算是养成了一个好习惯吧
接下来要开始一段新的任务了
💪加油

网友评论

本文标题：机器学习西瓜书 Day23 强化学习

本文链接：https://www.haomeiwen.com/subject/nhifsftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

机器学习西瓜书 Day23 强化学习

第16章强化学习

16.1 任务与奖赏