美文网首页强化学习
部分可见马尔可夫决策过程(POMDP)(一)

部分可见马尔可夫决策过程(POMDP)(一)

作者: 秋冬不寒 | 来源:发表于2022-05-13 16:12 被阅读0次

    现实世界中,智能体往往智能观察到部分信息。每个智能体智能感知它周围的环境状态,并不了解系统的状态。部分可见可尔科夫决策过程(POMDP)比MDP更接近一般的决策过程。POMDP可以看成MDP的拓展,状态空间包括对应于MDP的状态集合上的概率分布。

    POMDP模型

    通常,使用一个七元组(S,A,T,R,O,Z,\gamma)描述POMDP,其中S,A,T,r,\gamma与MDP一致。此外:

    • O: 一组观察结果集。
    • Z: S \times A \rightarrow \Delta(O)是一个观察函数,表明状态和观察之间的关系。

    在POMDP中,智能体不能确定自己处于哪个状态,因此对下一步动作选择的决策基础是当前所处状态的概率。智能体不断收集环境信息,更新自己所处状态的可信度。“信息收集”不能直接把智能体导向目标,而是作为缓冲,让智能体先运动到临近位置,利用临近位置上的环境信息来提高智能体对自己所处状态的可信度。只有非常确定自己的状态,智能体做出的决策才是更加有效的。因此,在每个时间周期,智能体无法准确得知自己的环境状态,但是可以通过观察得到状态的不完整信息。通过观察和动作的历史来作决策。在t时刻观察和行为的历史定义为:
    h_t = (a_0,o_1,···,o_{t-1},a_{t-1},o_t)
    对于历史的描述会消耗很大存储空间,为解决这一问题,需要对历史进行压缩,即采用较短的历史代替所有的观察和行为

    相关文章

      网友评论

        本文标题:部分可见马尔可夫决策过程(POMDP)(一)

        本文链接:https://www.haomeiwen.com/subject/hqfuurtx.html