美文网首页人工智能
MCMC-1|机器学习推导系列(十五)

MCMC-1|机器学习推导系列(十五)

作者: 酷酷的群 | 来源:发表于2020-09-26 17:55 被阅读0次

    一、蒙特卡洛方法

    Monte Carlo Method也就是基于采样的随机近似方法。该方法旨在求得复杂概率分布下的期望值:E_{z|x}[f(z)]=\int p(z|x)f(z)\mathrm{d}z\approx \frac{1}{N} \sum_{i=1}^{N}f(z_{i}),其中z_{i}是从概率分布p(z|x)中取的样本,也就是说从概率分布中取N个点,从而近似计算这个积分。

    这里介绍三种采样方法:

    1. 概率分布采样

    首先要求得概率密度函数PDF的累计密度函数CDF,然后求CDF得反函数,在0-1之间均匀取样,代入反函数,就得到了取样点。这个方法的缺点就是大部分PDF很难求得CDF:

    概率分布采样
    1. 拒绝采样(Rejection Sampling)

    对于较复杂的概率分布p(z),引入简单的提议分布(proposal distribution)q(z),使得任意的Mq(z_{i})\geq p(z_{i}),然后对q(z)进行采样获得样本。具体的采样方法步骤为:
    ①选择概率密度函数为q(z),作为提议分布,使其对任一z满足Mq(z_{i})\geq p(z_{i}),其中M>0
    ②按照提议分布q(z)随机抽样得到样本z_{i},再按照均匀分布在(0,1)范围内抽样得到u_{i}
    ③如果u_{i}\leq \frac{p(z_{i})}{Mq(z_{i})},则将z_{i}作为抽样结果;否则,返回步骤②;
    ④直到获得N个样本,结束。

    拒绝采样的优点是容易实现,缺点是采样效率可能不高。如果p(z)的涵盖体积占Mq(z)的涵盖体积的比例很低,就会导致拒绝的比例很高,抽样效率很低。注意,一般是在高维空间抽样,会遇到维度灾难的问题,即使p(z)Mq(z)很接近,两者涵盖体积的差异也可能很大。

    1. 重要性采样(Importance Sampling)

    直接对期望E_{p(z)}[f(z)]进行采样。这里引入另一个分布q(z)

    E_{p(z)}[f(z)]=\int p(z)q(z)\mathrm{d}z\\ =\int \frac{p(z)}{q(z)}\cdot q(z)\cdot f(z)\mathrm{d}z\\ =\int f(z)\cdot \frac{p(z)}{q(z)}\cdot q(z)\mathrm{d}z\\ \approx \frac{1}{N}\sum_{i=1}^{N}f(z_{i})\cdot \underset{weight}{\underbrace{\frac{p(z_{i})}{q(z_{i})}}}\\ z_{i}\sim q(z),i=1,2,\cdots ,N

    于是采样在q(z)中采样,并通过权重计算和。重要值采样对于权重⾮常⼩的时候,效率非常低。

    重要性采样有⼀个变种 Sampling-Importance-Resampling,这种方法,首先和上面⼀样进行采样,然后在采样出来的N个样本中,重新采样,这个重新采样,使⽤每个样本点的权重作为概率分布进行采样。

    二、马尔可夫链

    1. 齐次马尔科夫链

    考虑一个随机变量的序列X=\left \{X_{0},X_{1},\cdots ,X_{t},\cdots \right \},这里的X_{t}表示t时刻的随机变量,每个随机变量的取值空间相同。

    如果X_{t}只依赖于X_{t-1},而不依赖于过去的随机变量\left \{X_{0},X_{1},\cdots ,X_{t-2}\right \},这一性质称为马尔可夫性,即

    P(X_{t}|X_{1},X_{2},\cdots X_{t-1})=P(X_{t}|X_{t-1}),t=1,2,\cdots

    具有马尔可夫性的随机序列X=\left \{X_{0},X_{1},\cdots ,X_{t},\cdots \right \}称为马尔可夫链(Markov Chain),或马尔可夫过程(Markov Process)。条件概率分布P(X_{t}|X_{t-1})称为马尔可夫链的转移概率分布。

    当转移概率分布P(X_{t}|X_{t-1})t无关,也就是说不同时刻的转移概率是相同的,则称该马尔可夫链为时间齐次的马尔可夫链(Time Homogenous Markov Chain),形式化的表达是:

    P(X_{t+s}|X_{t-1+s})=P(X_{t}|X_{t-1}),t=1,2,\cdots ;\; \; s=1,2,\cdots

    2. 转移概率矩阵和状态分布

    • 转移概率矩阵

    如果马尔可夫链的随机变量X_{t}(t=0,1,2,\cdots )定义在离散空间,则转移概率分布可以由矩阵表示。若马尔可夫链在时刻t-1处于状态j,在时刻t移动到状态i,将转移概率记作:

    p_{ij}=(X_{t}=i|X_{t-1}=j),i=1,2,\cdots ;\; \; j=1,2,\cdots

    满足:

    p_{ij}\geq 0,\; \; \sum _{i}p_{ij}=1

    马尔可夫链的转移概率可以由矩阵表示:

    P=\begin{bmatrix} p_{11} & p_{12} & p_{13} & \cdots \\ p_{21} & p_{22} & p_{23} & \cdots \\ p_{31} & p_{32} & p_{33} & \cdots \\ \cdots & \cdots & \cdots & \cdots \end{bmatrix}\\ p_{ij}\geq 0,\; \; \sum _{i}p_{ij}=1

    • 状态分布

    考虑马尔可夫链X=\left \{X_{0},X_{1},\cdots ,X_{t},\cdots \right \}在时刻X_{t}(t=0,1,2,\cdots )的概率分布,称为时刻t状态分布,记作:

    \pi (t)=\begin{bmatrix} \pi _{1}(t)\\ \pi _{2}(t)\\ \vdots \end{bmatrix}

    其中\pi _{i}(t)表示时刻t状态为i的概率P(X_{i}=i),即:

    \pi _{i}(t)=P(X_{i}=i),\; \; i=1,2,\cdots

    对于马尔可夫链的初始状态分布:

    \pi (0)=\begin{bmatrix} \pi _{1}(0)\\ \pi _{2}(0)\\ \vdots \end{bmatrix}

    其中\pi _{i}(0)表示时刻0状态为i的概率P(X_{0}=i)。通常初始分布\pi _{i}(0)的向量只有一个分量是1,其余分量为0,表示马尔可夫链是从一个具体状态开始的。

    马尔可夫链在时刻t的状态分布,可以由在时刻t-1的状态分布以及转移概率分布决定:

    \pi (t)=P\pi (t-1)

    其中:

    \pi _{i}(t)=P(X_{t}=i)\\ =\sum_{m}P(X_{t}=i|X_{t-1}=m)P(X_{t-1}=m)\\ =\sum_{m}p_{im}\pi _{m}(t-1)

    马尔可夫链在时刻t的状态分布,可以通过递推得到:

    \pi (t)=P\pi (t-1)=P(P\pi (t-2))=P^{2}\pi (t-2)

    递推得到:

    \pi (t)=P^{t}\pi (0)

    这里的递推式表明马尔可夫链的状态分布由初始分布转移概率分布决定。

    这里的P^{t}称为t步转移概率矩阵:

    P^{t}_{ij}=P(X_{t}=i|X_{0}=j)

    3. 平稳分布

    • 定义

    对于一个马尔可夫链X,如果其状态空间上存在一个分布:

    \pi =\begin{bmatrix} \pi _{1}\\ \pi _{2}\\ \vdots \end{bmatrix}

    使得:

    \pi =P\pi

    则称\pi为马尔可夫链X的平稳分布。

    直观地来看,如果以该平稳分布作为初始分布,面向未来进行随机状态转移,之后任何一个时刻的状态分布都是该平稳分布。

    • 定理

    给定一个马尔可夫链X,状态分布为\pi=(\pi_{1},\pi_{2},\cdots )^TX充要条件
    \pi是下列方程组的解:

    \left\{\begin{matrix} ①\; x_{i}=\sum _{j}p_{ij}x_{j},\; \; i=1,2,\cdots \\ ②\; x_{i}\geq 0,\; \; i=1,2,\cdots \\③\; \sum_{i}x_{i}=1 \end{matrix}\right.

    证明如下:

    必要性证明
    假设\pi是平稳分布,显然满足①和②,又因为\pi_{i}=\sum _{j}p_{ij}\pi_{j},所以满足③。
    充分性证明
    由②和③知\pi是一概率分布。假设\piX_t的分布,则有:
    P(X_{t}=i)=\pi _{i}=\sum _{j}p_{ij}P(X_{t-1}=j)
    又因为\pi满足①,所以有:
    P(X_{t}=i)=\pi _{i}=\sum _{j}p_{ij}\pi _{j}
    综合两式则可得出P(X_{t-1}=j)=\pi _{j},j=1,2,\cdots,即\pi也是X_{t-1}的概率分布。事实上这对任意t都成立,所以\pi是马尔可夫链的平稳分布。

    这个定理给出了一个求马尔可夫链平稳分布的方法。

    4. 连续状态马尔可夫链

    • 概率转移核

    连续状态马尔可夫链的转移概率分布由概率转移核或转移核(transition kernel)表示。

    在连续状态空间S上,对任意的x\in S,A\subset SA可以理解为一个区间),转移核P(x,A)定义为:

    P(x,A)=\int _{A}p(x,y)\mathrm{d}y

    其中p(x,\cdot )为概率密度函数,满足p(x,\cdot )\geq 0,P(x,S)=\int _{S}p(x,y)\mathrm{d}y=1。转移核P(x,A)表示从x\sim A的转移概率:

    P(X_{t}=A|X_{t-1}=x)=P(x,A)

    有时也将概率密度函数p(x,\cdot )称为转移核。

    • 平稳分布

    若马尔可夫链的状态空间S上的概率分布\pi (x)满足条件:

    \pi (y)=\int p(x,y)\pi (x)\mathrm{d}x,\forall y\in S

    \pi (x)为该马尔可夫链的平稳分布。等价地:

    \pi (A)=\int p(x,A)\pi (x)\mathrm{d}x,\forall A\in S

    或简写为:

    \pi =P\pi

    三、马尔可夫链的性质

    以下通过离散状态马尔可夫链介绍马尔可夫链的性质,可以推广到连续状态马尔可夫链。

    1. 不可约

    在状态空间S中对于任意状态i,j\in S,如果存在一个时刻t(t>0)满足:

    P(X_{t}=i|X_{0}=j)> 0

    也就是说,时刻0从状态j出发,时刻t到达状态i的概率大于0,则称此马尔可夫链是不可约的(irreducible),否则称马尔可夫链是可约的(reducible)

    直观上,一个不可约的马尔可夫链,从任意状态出发,当经过充分长时间后,可以到达任意状态。

    举例:

    不可约:


    不可约

    可约:


    可约

    2. 非周期

    在状态空间S中对于任意状态i\in S,如果时刻0从状态i出发,t时刻返回状态的所有时间长\left \{t:P(X_{t}=i|X_{0}=i)> 0\right \}的最大公约数是1,则称此马尔可夫链是非周期的(aperiodic),否则称马尔可夫链是周期的(periodic)

    直观上,一个非周期性的马尔可夫链,不存在一个状态,从这一个状态出发,再返回到这个状态时所经历的时间长呈一定的周期性,也就是说非周期性的马尔可夫链的任何状态都不具有周期性。

    举例:

    非周期:


    非周期

    周期:


    周期

    3. 正常返

    对于任意状态i,j\in S,定义概率p_{ij}^{t}为时刻0从状态j出发,时刻t首次转移到状态i的概率,即p_{ij}^{t}=P(X_{t}=i,X_{s}\neq i,s=1,2,\cdots ,t-1|X_{0}=j),t=1,2,\cdots。若对所有状态i,j都满足\lim_{t\rightarrow \infty }p_{ij}^{t}> 0,则称马尔可夫链是正常返的(positive recurrent)

    直观上,一个正常返的马尔可夫链,其中任意一个状态,从其他任意一个状态出发,当时间趋于无穷时,首次转移到这个状态的概率不为0

    定理:

    不可约、非周期且正常返的马尔可夫链,有唯一平稳分布存在。

    4. 遍历定理

    若马尔可夫链是不可约、非周期且正常返的,则该马尔可夫链有唯一平稳分布\pi=(\pi_{1},\pi_{2},\cdots )^T,并且转移概率的极限分布是马尔可夫链的平稳分布:

    \lim_{t\rightarrow \infty }P(X_{t}=i|X_{0}=j)=\pi _{i},\; \; i=1,2,\cdots ,\; \; j=1,2,\cdots

    也就是:

    \lim_{t\rightarrow \infty }P(X_{t}=i)=\pi _{i},\; \; i=1,2,\cdots

    f(X)是定义在状态空间上的函数,E_{\pi }[f(X)]< \infty,则:

    P\left \{\hat{f}_{t}\rightarrow E_{\pi }[f(X)]\right \}=1

    这里:

    \hat{f}_{t}=\frac{1}{t} \sum_{s=1}^{t}f(x_{s})

    E_{\pi }[f(X)]=\sum _{i}f(i)\pi _{i}f(X)关于平稳分布\pi=(\pi_{1},\pi_{2},\cdots )^T的数学期望,P\left \{\hat{f}_{t}\rightarrow E_{\pi }[f(X)]\right \}=1表示\hat{f}_{t}\rightarrow E_{\pi }[f(X)],t\rightarrow \infty几乎处处成立或以概率1成立。

    遍历定理的直观解释:满足相应条件的马尔可夫链,当时间趋于无穷时,马尔可夫链的状态分布趋近于平稳分布,随机变量的函数的样本均值以概率1收敛于该函数的数学期望

    样本均值可以认为是时间均值,数学期望是空间均值。遍历定理表述了遍历性的含义:当时间趋于无穷时,时间均值等于空间均值。

    遍历定理的三个条件:不可约、非周期、正常返,保证了当时间趋于无穷时达到任意一个状态的概率不为0

    理论上并不知道经过多少次迭代,马尔可夫链的状态分布才能接近平稳分布,在实际应用遍历定理时,取一个足够大的整数m,经过m次迭代之后认为状态分布就是平稳分布,这时计算从第m+1次迭代到第n次迭代的均值,即:

    E_{\pi }[f(X)]=\frac{1}{n-m}\sum_{i=m+1}^{n}f(x_{i})

    称为遍历均值。

    5. 可逆马尔可夫链

    • 定义

    对于任意状态i,j\in S,对任意一个时刻t满足:

    P(X_{t}=i|X_{t-1}=j)\pi _{j}=P(X_{t-1}=j|X_{t}=i)\pi _{i},\; \; i,j=1,2,\cdots

    或简写为:

    p_{ij}\pi _{j}=p_{ji}\pi _{i},\; \; i,j=1,2,\cdots

    则称此马尔可夫链为可逆马尔可夫链(reversible Markov chain),上式又被称作细致平衡方程(detailed balance equation)

    直观上,如果有可逆马尔可夫链,那么以该马尔可夫链的平稳分布作为初始分布,进行随机状态转移,无论是面向过去还是面向未来,任何一个时刻的状态分布都是该平稳分布。

    • 定理

    满足细致平衡方程的状态分布\pi就是该马尔可夫链的平稳分布,即满足P\pi=\pi。

    证明:

    (P\pi )_{i}=\sum _{j}p_{ij}\pi _{j}=\sum _{j}p_{ji}\pi _{i}=\pi _{i}\underset{=1}{\underbrace{\sum _{j}p_{ji}}}=\pi _{i},\; \; i=1,2,\cdots

    该定理说明,可逆马尔可夫链一定有唯一平稳分布,给出了一个马尔可夫链有平稳分布的充分条件(不是必要条件)。也就是说,可逆马尔可夫链满足遍历定理的条件。

    参考资料

    ref:李航《统计学习方法》

    相关文章

      网友评论

        本文标题:MCMC-1|机器学习推导系列(十五)

        本文链接:https://www.haomeiwen.com/subject/pcjjsktx.html