部分可见马尔可夫决策过程（POMDP)（一）

作者: 秋冬不寒 | 来源:发表于2022-05-13 16:12 被阅读0次

部分可见马尔可夫决策过程（POMDP)（一）
马尔可夫链和隐马尔可夫模型
POMDP详细介绍-第一节（部分可观测马尔可夫决策过程）
马尔可夫决策过程
从零开始强化学习（二）——马尔可夫决策过程
马尔科夫模型的几个子模型
马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程
马尔可夫决策过程与贝尔曼方程

现实世界中，智能体往往智能观察到部分信息。每个智能体智能感知它周围的环境状态，并不了解系统的状态。部分可见可尔科夫决策过程（POMDP）比MDP更接近一般的决策过程。POMDP可以看成MDP的拓展，状态空间包括对应于MDP的状态集合上的概率分布。

POMDP模型

通常，使用一个七元组 $(S,A,T,R,O,Z,\gamma)$ 描述POMDP，其中S，A，T，r， $\gamma$ 与MDP一致。此外：

O: 一组观察结果集。
Z: $S \times A \rightarrow \Delta(O)$ 是一个观察函数，表明状态和观察之间的关系。

在POMDP中，智能体不能确定自己处于哪个状态，因此对下一步动作选择的决策基础是当前所处状态的概率。智能体不断收集环境信息，更新自己所处状态的可信度。“信息收集”不能直接把智能体导向目标，而是作为缓冲，让智能体先运动到临近位置，利用临近位置上的环境信息来提高智能体对自己所处状态的可信度。只有非常确定自己的状态，智能体做出的决策才是更加有效的。因此，在每个时间周期，智能体无法准确得知自己的环境状态，但是可以通过观察得到状态的不完整信息。通过观察和动作的历史来作决策。在t时刻观察和行为的历史定义为：
$h_t = (a_0,o_1,···，o_{t-1},a_{t-1},o_t)$
对于历史的描述会消耗很大存储空间，为解决这一问题，需要对历史进行压缩，即采用较短的历史代替所有的观察和行为。