MDP

作者: Dorts | 来源:发表于2017-05-14 20:19 被阅读27次

    定义

    包含以下四5部分的系统称为马尔科夫决策过程:

    1. 状态
    2. 模型(也就是Transition model/function, 必须满足两个属性 1. 静态,也就是指model-based?2. 马尔科夫性)
    3. 动作
    4. 奖励
    5. 策略,策略就是1-4步形成的问题的解!

    注意模型需要满足2中的两个特性。

    image.png

    Q:如何理解策略?
    A:策略就是一个函数映射Pi,Pi(s)->a,该映射将给定状态s映射为一个动作a
    Q:强化学习和监督学习的区别?
    Q:什么是Plan,和Policy的区别是?
    A:Plan是状态到序列的映射,而Policy是状态到动作的映射。具体说,Plan将给定的一个状态s,映射为一个动作序列。在MDP中,我们求解的对象时Policy而不是Plan,只要有了Policy,肯定就万事大吉了。

    相关文章

      网友评论

          本文标题:MDP

          本文链接:https://www.haomeiwen.com/subject/gpvqxxtx.html