美文网首页
week62 马尔科夫决策过程MDP State和 Observ

week62 马尔科夫决策过程MDP State和 Observ

作者: 吃醋不吃辣的雷儿 | 来源:发表于2022-03-19 14:09 被阅读0次

强化学习模型要素




为什么要引入MDP
上一节中提到了状态转移模型,通过该模型可以得到个体在一状态执行动作转移到下一个状态的概率值。如果按照真实的环境转化过程看,转化到下一个状态s ′ 的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态s ′的概率仅与上一个状态s有关,与之前的状态无关。用公式表示就是:


MDP

State和 Observation区别:

State是 Environment的私有表达,我们往往不知道不会直接到的。在 MDP 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻 t知道了小球的速度和加速度,那么 t之后的小球的位置都可以由当前状态,根据牛顿第二定律计算出来。再举一个夸张的例子,如果宇宙大爆炸时奇点的状态已知,那么以后的所有状态就已经确定,包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况,现实往往不会那么简单(因为这只是马尔科夫的一个假设)。只有满足这样条件的状态才叫做马尔科夫状态。即:

马尔科夫状态
正是因为 State太过于复杂,我们往往可以需要一个对 Environment的观察来间接获得信息,因此就有了 Observation。不过 Observation是可以等于 State的,在游戏中,一帧游戏画面完全可以代表当前状态,因此 Observation= State,此时叫做 Full Observability
————————————————
https://blog.csdn.net/lxlong89940101/article/details/102509400
https://blog.csdn.net/qq_32304107/article/details/106952349

相关文章

网友评论

      本文标题:week62 马尔科夫决策过程MDP State和 Observ

      本文链接:https://www.haomeiwen.com/subject/zgbdqrtx.html