美文网首页人工智能
概率图模型-表示|机器学习推导系列(十)

概率图模型-表示|机器学习推导系列(十)

作者: 酷酷的群 | 来源:发表于2020-08-12 16:29 被阅读0次

    一、概述

    1. 基本规则

    概率图模型使用图的形式表示概率分布,首先总结一下几个随机变量分布的一些规则:

    Sum Rule:p(x_{1})=\int p(x_{1},x_{2})\mathrm{d}x_{2}
    Product Rule:p(x_{1},x_{2})=p(x_{1}|x_{2})p(x_{2})
    Chain Rule:p(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}p(x_{i}|x_{i+1},x_{i+2},\cdots ,x_{p})
    Bayesian Rule:P(x_{2}|x_{1})=\frac{P(x_{1},x_{2})}{P(x_{1})}=\frac{P(x_{1},x_{2})}{\int P(x_{1},x_{2})\mathrm{d}x_{2}}=\frac{P(x_{2})P(x_{1}|x_{2})}{\int P(x_{2})P(x_{1}|x_{2})\mathrm{d}x_{2}}

    1. 简化运算的假设

    在链式规则中如果数据的维度过高,就会出现计算复杂的困境,因此我们需要对此做出一些简化,以下是一些例子:

    ①\; 相互独立的假设:P(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}P(x_{i}),朴素贝叶斯中的条件独立性假设:P(x|y)=\prod_{i=1}^{p}P(x_{i}|y);\\ ②\; Markov\; Property:x_{j}\perp x_{i+1}| x_{i},j< i,HMM中的齐次Markov假设;\\ ③\; {\color{Red}{条件独立性假设}}:x_{A}\perp x_{B}|x_{C},x_{A}、x_{B}、x_{C}是集合,且不相交。

    1. 概率图模型的知识体系

    概率图\left\{\begin{matrix} Representation(表示)\left\{\begin{matrix} 有向图\; Beyesian\; Network\\ 高斯图(连续)\left\{\begin{matrix} Gaussian\; BN\\ Gaussian\; MN \end{matrix}\right.\\ 无向图\; Markov\; Network \end{matrix}\right.\\ Inference(推断)\left\{\begin{matrix} 精确推断\\ 近似推断\left\{\begin{matrix} 确定性近似(变分推断)\\ 随机近似(MCMC) \end{matrix}\right. \end{matrix}\right.\\ Learning(学习)\left\{\begin{matrix} 参数学习\left\{\begin{matrix} 完备数据\left\{\begin{matrix} 有向\\ 无向 \end{matrix}\right.\\ 隐变量\rightarrow EM \end{matrix}\right.\\ 结构学习 \end{matrix}\right. \end{matrix}\right.

    二、有向图-贝叶斯网络

    1. 基本结构

    已知联合概率分布中各个随机变量的依赖关系,可以根据拓扑排序(依赖关系)得到一个有向图。而如果已知一个有向图,可以直接得到联合概率分布的因子分解:

    P(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}P(x_{i}|x_{parent(i)})

    在局部的任何三个节点,可以有以下三种结构:

    • head to tail
    head to tail

    这种结构满足:

    A\perp C|B\Leftrightarrow 若B被观测,则路径被阻塞。

    阻塞也就是独立的意思。

    通过因子分解和链式规则可以进行证明:

    P(A,B,C)=\underset{因子分解}{\underbrace{P(A)P(B|A)P(C|B)}}=\underset{链式法则}{\underbrace{P(A)P(B|A)P(C|B,A)}}\\ \Rightarrow P(C|B)=P(C|B,A)\\ \Rightarrow P(C|B)P(A|B)=P(C|A,B)P(A|B)\\ \Rightarrow P(C|B)P(A|B)=P(C,A|B)\\ \Rightarrow C\perp A|B

    • tail to tail
    tail to tail

    这种结构满足:

    A\perp C|B\Leftrightarrow 若B被观测,则路径被阻塞。

    通过因子分解和链式规则可以进行证明:

    P(A,B,C)=\underset{因子分解}{\underbrace{P(A|B)P(B)P(C|B)}}=\underset{链式法则}{\underbrace{P(B)P(A|B)P(C|A,B)}}\\ \Rightarrow P(C|B)=P(C|A,B)\\ \Rightarrow P(C|B)P(A|B)=P(C|A,B)P(C|B)\\ \Rightarrow P(C|B)P(A|B)=P(A,C|B)\\ \Rightarrow C\perp A|B

    • head to head
    head to head

    这种结构满足:

    默认情况下,A\perp C,路径是阻塞的。
    B被观测,则路径是通的。
    如果B仍然有后继节点,则如果后继节点被观测,路径也是通的。

    通过因子分解和链式规则可以进行证明:

    P(A,B,C)=\underset{因子分解}{\underbrace{P(A)P(C)P(B|A,C)}}=\underset{链式法则}{\underbrace{P(A)P(C|A)P(B|A,C)}}\\ \Rightarrow P(C)=P(C|A)\\ \Rightarrow A\perp C

    1. D划分(D-Seperation)

    对于3个集合A、B、C,判断其是否满足条件独立性假设(x_{A}\perp x_{B}|x_{C},x_{A}x_{B}x_{C}是集合,且不相交。)可以通过D划分这种方法。

    D划分是一种判定的方式,其规则是对于上述head to tail以及tail to tail的关系,引入集合AB,那么满足x_{A}\perp x_{B}|x_{C}C集合中的元素与AB中的元素的关系满足head to tail或tail to tail的关系,而满足head to head关系的元素不在C中。下图展示了满足条件独立性的3个集合的有向图:

    条件独立性
    1. 马尔可夫毯(Markov Blanket)

    现在来看一下以下概率:

    P(x_{i}|x_{-i})=\frac{P(x_{i},x_{-i})}{P(x_{-i})}=\frac{P(x)}{\int _{x_{-i}}P(x)\mathrm{d}x_{i}}=\frac{\prod_{j=1}^{p}P(x_{j}|x_{parent(j)})}{\int _{x_{i}}\prod_{j=1}^{p}P(x_{j}|x_{parent(j)}) \mathrm{d}x_{i}}

    在上式中,x_{-i}指的是从x中剔除x_{i}剩下的部分。分子分母可以将与x_{i}无关的P(x_{j}|x_{parent(j)})提出来然后约掉,也就是说x_{i}x_{-i}的关系只与P(x_{i}|x_{parent(i)})P(x_{child(i)}|x_{i},x_{otherparent})有关,即只与x_{i}的父节点,x_{i}的子节点以及x_{i}子节点的其父节点有关,这些节点就叫做马尔可夫毯(Markov Blanket)。画图表示如下:

    马尔可夫毯(Markov Blanket)
    1. 具体模型

    实际应⽤的模型中,对这些条件独⽴性作出了假设,从单⼀到混合,从有限到⽆限(时间,空间)可以分为:

    \left\{\begin{matrix} 单一:Naive Bayes\\ 混合:GMM\\ 时间:\left\{\begin{matrix} Markov\; Chain\\ Gaussian\; Process \end{matrix}\right.\\ 连续:Gaussian\; Bayesian\; Network \end{matrix}\right.

    GMM 与时序结合的动态模型:

    • HMM(离散)
    • 线性动态系统 LDS(Kalman 滤波)
    • 粒⼦滤波(⾮⾼斯,⾮线性)

    三、无向图-马尔可夫网络(马尔可夫随机场)

    1. 全局、局部、成对马尔可夫性

    马尔可夫随机场的条件独立性体现在三个方面:
    ①全局马尔可夫性
    ②局部马尔可夫性
    ③成对马尔可夫性

    全局、局部、成对马尔可夫性是相互等价的,也就是说可以相互推出来。

    • 全局马尔可夫性

    在无向图中给定三个集合ABC,在无向图中如果满足给定x_C的条件下,x_Ax_B相互独立,即x_{A}\perp x_{B}|x_{C},则满足全局马尔可夫性。

    在图中的判定方法为从A中节点到B中节点的任何路径上都至少有一个位于C中的节点:

    全局马尔可夫性
    • 局部马尔可夫性

    局部马尔可夫性是指给定一个变量x的所有邻接变量,则x独立于任何其他变量,即:

    x\perp (X-Neighbor(x)-x)|Neighbor(x)

    举例来说,在下图中,x\perp \left \{e,f\right \}|\left \{b,c,d\right \}

    局部马尔可夫性
    • 成对马尔可夫性

    成对马尔可夫性是指给定所有其他变量,两个非邻接变量条件独立,即:

    x_{i}\perp x_{j}|x_{-i-j},i\neq j,x_{i}、x_{j}不相邻

    1. 因子分解

    引入团的概念:

    团,最大团:图中节点的集合,集合中的节点之间全部互相连接的叫做团,如果不能再添加任何节点,就叫做最大团。

    最大团的概念可以参考数据结构中的极大连通子图

    将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解

    给定概率无向图模型,C_i,i=1,2,\cdots ,k为无向图模型上的最大团,则x的联合概率分布P(x)可以写为:

    P(x)=\frac{1}{Z}\prod_{i=1}^{k}\psi (x_{C_{i}})\\ C_{i}:最大团\\ x_{C_{i}}:最大团随机变量集合\\ \psi (x_{C_{i}}):势函数,必须为正\\ Z=\sum _{x}\prod_{i=1}^{k}\psi (x_{C_{i}})=\sum _{x_{1}}\sum _{x_{2}}\cdots \sum _{x_{p}}\prod_{i=1}^{k}\psi (x_{C_{i}})

    对于势函数,通常使用\psi (x_{C_{i}})=exp\left \{-E(x_{C_{i}})\right \},当使用这个势函数时,P(x)=\frac{1}{Z}\prod_{i=1}^{k}\psi (x_{C_{i}})就叫做吉布斯分布(Gibbs Distribution),或者玻尔兹曼分布(Boltzmann Distribution)。进一步观察一下这个分布:

    P(x)=\frac{1}{Z}\prod_{i=1}^{k}\psi (x_{C_{i}})\\ =\frac{1}{Z}\prod_{i=1}^{k}exp\left \{-E(x_{C_{i}})\right \}\\ =\underset{指数族分布形式}{\underbrace{\frac{1}{Z}exp\left \{-\sum_{i=1}^{k}E(x_{C_i})\right \}}}

    也就是说吉布斯分布满足指数族分布的形式,于是满足最大熵原理

    相关文章

      网友评论

        本文标题:概率图模型-表示|机器学习推导系列(十)

        本文链接:https://www.haomeiwen.com/subject/pcvhdktx.html