【1】MDP(S【状态集】,A【动作集】,{Psa}【状态转换分布】,γ【贴现因子】,R【奖励函数】)
【过程】
从状态0出发,选择一个动作a0,

选择a1,

总的回报:

选择活动使其最大:

政策policy:

定义值函数:

【2】隐马尔科夫模型
三要素 λ=(A,B,π)
两个基本假设:
(1)齐次马尔可夫性假设,隐马尔科夫链t的状态只和t-1状态有关。

(2)观测独立性假设,观测只和当前时刻状态有关。

观测序列生成:
输入:隐马尔科夫模型 λ=(A,B,π)观测序列长度T


(2)令t=1


(5)令t=t+1,如果t<T,转(3),否则终止。
隐马尔科夫三个基本问题:
(1)概率计算
【前向算法】

输入:隐马尔科夫模型λ,观测序列O
输出:观测序列概率P(O|λ)
初值:

递推:

终止:

【后向算法】

输入:λ,O
输出:p(O|λ)

(ii)对t=T-1,T-2,...,1

(iii)

(2)学习算法
【监督学习算法】
【baum-welch算法】









(3)预测计算
【近似算法】


【维特比算法】
动态规划解概率最大路径,一个路径对应一个状态序列。
网友评论