L2-MDP

作者: 山的那边是什么_ | 来源:发表于2017-10-15 22:45 被阅读11次

    1. Markov Processes

    1.1 Introduction to MDPs

    1.2 Markov Property

    1. 当前状态只与其前面一个状态有关

    1.3 State Transition Matrix

    为了形式化状态之间的转化,提出了状态转移矩阵。行是当前的各个状态,列是下一个状态,同时每行的值为1。


    1.4 Markov Process

    1. 无记忆的随机过程
    2. 一个随机的状态序列具有Markov性质
    3. S:状态,P:状态转移矩阵
    4. 当前状态的转移概率至于前一个状态有关

    1.5 Example: Student Markov Chain

    下图中圆圈表示一个状态,尖头的开始和结束位置表示状态的之间的转换,上面的值表示状态之间的转移概率。其中sleep表示MP的结束状态



    图中存在的马尔可夫链:
    C1 C2 C3 Pass Sleep
    C1 FB FB C1 C2 Sleep
    C1 C2 C3 Pub C2 C3 Pass Sleep
    C1 FB FB C1 C2 C3 Pub C1 FB FB
    FB C1 C2 C3 Pub C2 Sleep
    状态转移矩阵:


    2. Markov Reward Process

    1. S:状态,P:转移概率矩阵、R:回报、r折扣因子

    2.1 return(回报)


    状态t时候的回报计算公式

    1. 随着时间的增加,t时刻的对后面的状态的影响逐渐减小,所以,这里利用的是等比数列的形式

    2.2 why discount

    1. 数学上,方便
    2. 避免回报是无限大的
    3. 未来的不确定性

    2.3 value function


    状态的value function是所有return的期望

    2.4 Bellman Equation for MRPs

    矩阵形式表示

    线性代数求解

    3. Markov Decision Process

    3.1 Policies

    3.2 value function

    3.3 Bellman Expectation Equation

    image.png image.png

    相关文章

      网友评论

          本文标题:L2-MDP

          本文链接:https://www.haomeiwen.com/subject/uatquxtx.html