美文网首页
【2018-09-28】马尔科夫决策过程MDP

【2018-09-28】马尔科夫决策过程MDP

作者: BigBigFlower | 来源:发表于2018-09-28 21:59 被阅读0次

【1】MDP(S【状态集】,A【动作集】,{Psa}【状态转换分布】,γ【贴现因子】,R【奖励函数】)

【过程】

从状态0出发,选择一个动作a0,

选择a1,

总的回报:

γ∈[0,1)状态1比状态0的回报少

选择活动使其最大:

政策policy:

定义值函数:

回报加权和期望

【2】隐马尔科夫模型

三要素 λ=(A,B,π)

两个基本假设:

(1)齐次马尔可夫性假设,隐马尔科夫链t的状态只和t-1状态有关。

(2)观测独立性假设,观测只和当前时刻状态有关。

观测序列生成:

输入:隐马尔科夫模型 λ=(A,B,π)观测序列长度T

(2)令t=1

(5)令t=t+1,如果t<T,转(3),否则终止。

隐马尔科夫三个基本问题:

(1)概率计算

【前向算法】

输入:隐马尔科夫模型λ,观测序列O

输出:观测序列概率P(O|λ)

初值:

递推:

终止:

【后向算法】

输入:λ,O

输出:p(O|λ)

(ii)对t=T-1,T-2,...,1

(iii)

(2)学习算法

【监督学习算法】

【baum-welch算法】

约束条件

(3)预测计算

【近似算法】

【维特比算法】

动态规划解概率最大路径,一个路径对应一个状态序列。

相关文章

网友评论

      本文标题:【2018-09-28】马尔科夫决策过程MDP

      本文链接:https://www.haomeiwen.com/subject/rvbqoftx.html