机器学习 西瓜书 Day23 强化学习

作者: 皇家马德里主教练齐达内 | 来源:发表于2018-05-31 11:02 被阅读2次

    p371 - p397
    今天最后一天啦
    话不多说 开始last chapter第16章

    第16章 强化学习

    16.1 任务与奖赏

    种瓜?在过程中我们做什么,并不能立即获得最终奖赏,仅能得到一个当前反馈。我们需要多次种瓜,不断摸索,才能总结出较好的种瓜策略。

    强化学习任务四元组 E = <X,A,P,R>
    X:状态
    A:动作
    P:条件转移概率: X x A x X - > R
    R:奖赏 : X x A x X -> R

    机器要做的事通过在环境中不断尝试而学得一个策略,根据这个策略,输入状态x能得到接下来的动作a。 a=π(x)。
    策略有两种表示方法,
    一种是直接表示为函数π:X->A,
    另一种是概率表示π:XxA->R

    策略的优劣取决于长期执行这一策略后得到的累积奖赏
    常用的有:T步累积奖赏、γ折扣累计奖赏。

    强化学习 vs 监督学习
    若将强化学习中的状态对应为监督学习的示例
    “动作”对应为“标记”
    那么强化学习中的策略实际上就相当于监督学习中的分类器。
    因此强化学习在某种意义上可看做具有“延迟标记信息”的监督学习问题。

    16.2 K-摇臂赌博机

    16.2.1 探索与利用

    强化学习与监督学习的显著不同:
    机器通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作

    欲最大化奖赏要考虑两个方面:
    1)要知道每个动作带来的奖赏 :探索
    2)执行奖赏最大的动作:利用

    单步强化学习任务对应了一个理论模型:K-摇臂赌博机
    若仅为探索每个摇臂的期望奖赏:仅探索
    若仅为执行奖赏最大的动作:仅利用

    探索和利用是矛盾的:探索-利用窘境

    16.2.2 ε-贪心

    基于一个概率来对探索和利用进行折中
    每次以ε的概率来进行探索,以1-ε来利用

    算法过程伪码 p375

    16.2.3 Softmax

    Softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中。
    若各摇臂的平均奖赏相当,则选取各arm的概率也相当
    若某些arm的平均奖赏明显高,则选他们的概率也会更高

    概率分配基于Boltzmann分布 p376式16.4
    定义了一个“温度”,温度τ越小则平均奖赏高的摇臂选取的概率越高。
    τ趋近于0算法趋于仅利用
    τ趋近于无穷大算法趋于仅探索

    过程伪码见p376 图16.5

    总的来说K-摇臂赌博机有局限,因为没有考虑强化学习任务马尔科夫决策过程的结构。

    16.3 有模型学习

    如果四元组E=<X,A,P,R>一致,这样的情形称为“模型已知”。
    在已知模型的环境中学习称为“有模型学习”。

    16.3.1 策略评估

    模型已知,对任意策略π能估计出策略带来的期望累积策略。
    基于T步累计奖赏的策略评估算法 p379图16.7

    16.3.2 策略改进

    对策略累积奖赏进行评估后,若发现非最优则希望对其改进,理想的是最大化奖赏。

    利用p380 最优Bellman等式:
    将策略选择的动作改变为当前最优的动作。

    16.3.3 策略迭代与值迭代

    将16.3.1 和 16.3.2结合起来即可得到求解最优解的方法。
    从一个初始策略(如随机策略)出发,先进行策略评估,然后改进策略,评估改进策略,再进一步改进...不断迭代进行评估与改进,直到策略收敛。

    p381 图16.8 基于T步累积奖赏的策略迭代改进算法
    p382 图16.9 基于T步累积奖赏的值迭代算法

    总的来说,在模型已知时强化学习任务可以归结为动态规划的寻优问题。

    16.4 免模型学习

    比有模型要困难得多

    16.4.1 蒙特卡罗强化学习

    p384 图16.10 同策略蒙特卡洛强化学习
    p386 图16.11 异策略蒙特卡洛强化学习

    16.4.2 时序差分学习

    p388 图16.12 Sarsa算法
    p388 图16.13 Q-学习算法

    16.5 值函数近似

    若状态空间不是有限的。
    现实生活中所面临的状态空间往往是连续的,有无穷多个状态。

    p390 图16.14 线性值函数近似Sarsa算法

    16.6 模仿学习

    种瓜任务时能得到农业专家的种植过程范例

    16.6.1 直接模仿学习

    有了专家的决策轨迹数据。
    那就可以把专家的状态-动作对抽取出来,构造新的数据集合D。
    即把状态作为特征,动作作为标记。
    然后根据这个D使用分类或回归算法即可学得新的策略模型。

    16.6.2 逆强化学习

    设计奖赏函数是很困难的
    从人类专家提供的数据反推奖赏函数,这就是“逆强化学习”。

    知道状态空间X,动作空间A,专家的决策轨迹数据集D。

    逆强化学习的基本思想:
    欲使机器做出与范例一致的行为,等价于在某个奖赏函数的环境中求解最优策略,使最优策略所产生的轨迹与范例数据一致。
    即:寻找某种奖赏函数使范例数据最优。

    p392 图16.15 迭代式逆强化学习算法


    尾注

    啊啊啊终于看完了/(ㄒoㄒ)/~~
    一刷看完这一个月收获还是不少的
    但还是感觉任重道远呀
    这本书想要啃透怎么还得再刷两遍的感觉
    不过确实是一本不错的入门书哎

    这一个月坚持的还是不错的
    虽然中间还是有几天断了
    但总归是一个月看完一遍了
    算是养成了一个好习惯吧
    接下来要开始一段新的任务了
    💪加油

    相关文章

      网友评论

        本文标题:机器学习 西瓜书 Day23 强化学习

        本文链接:https://www.haomeiwen.com/subject/nhifsftx.html