美文网首页
概率图模型基础(4)——局部概率模型

概率图模型基础(4)——局部概率模型

作者: To_QT | 来源:发表于2019-08-29 16:14 被阅读0次

1. CPD(Conditional Probobality Distribution)表

1.1 CPD表存在的问题

《概率图模型基础(3)——贝叶斯网络的独立性》
简单介绍了贝叶斯网络中的独立性特征,通过这些独立性特征能够把一个高维度的联合分布分解为低维的条件概率分布。在离散变量中,可以用一个表格表示每一个可能的离散CPD。但是,使用表格表示也有几个缺陷:

  1. 无法处理连续型随机变量,或者离散变量取值较多的情况。
  2. 随着父节点个数的增多,需要表格的行数将会呈指数型增长。如果结果与10个变量相关,那么其组合为2^{10}=1024种。

但其实在生活中,各个变量组合之间是有重复性的。

还是学生成绩的例子,新增了一个二值变量JobJ^1表示获取jobJ^0表示未获取job;一个二值变量ApplyA^1表示投递简历J^0表示不投递简历。这段时间某一公司迫切需要员工,此时即使学生不投递简历仍然有可能获得job,在这样的情况下招聘者没有办法接触到SAT和Letter。其关系图如下所示:

图1.png
现在要对进行描述:
很明显,如果使用CPD表格的方法,需要行,但是在的情况下,不论如何变化,其CPD的值都不会发生改变。此时,CPD表格就可以进行化简。

1.2 CPD表的表示方法

假设y_1,..., y_k是结点X的父节点,则用CPD可以表示为:
P(X|y_1,...y_k)
概率图模型基础(1)——简介中介绍了Factors的抽象定义,因此,可以将上式表达为
\phi (X,Y_1,...,y_k)
注意,对于所有的y_1,...,y_k,都有:
\sum_X \phi (X,Y_1,...,y_k)=1

我们也可以用这个形式表述很多的信息。比如:

  • 确定性的CPD
  • 树形结构的CPD
  • 逻辑CPD和标准化
  • 噪声问题
  • 线性高斯模型 和 标准化

2 确定性CPD

2.1 表示

当变量X是其父节点Pa_X的一个确定性函数,存在一个函数f能够将父节点的值映射为X的取值,即Val(Pa_X) \mapsto Val(X),有:
P(X|Pa_X)= \left\{\begin{matrix} 1& x=f(Pa_X)\\ 0& other \end{matrix}\right.
这种表示法称为:确定性CPD

一个医学上的例子,假设咳嗽症状(Cough)与10个疾病有关(各字母含义如下:C:Cough;Pneumonia:P....,*:取任意值)。其中,若患有疾病Flu,则一定有Cough症状,对于任意P(C=True|P=*,F=True,...,T=*,B=*)都相同。
网络结构如下:

图2.png

在上图中,如果使用表格法可能会得到一个非常大的表格。利用这一点,将Flu为True的情况提炼成一个函数。
在咳嗽的例子中,函数f就是一个“或”操作。X是咳嗽,Pa_X代表所有可能患的疾病(父节点)。

2.2 确定性CPD中的独立性

2.2.1 上下文独立

先介绍一个概念:上下文独立
C 是变量集,可与 X,Y,Z 相交,满足以下三条等价陈述时称 XY 在给定 Z 和表示为(X⊥cY|Z)的上下文 C 时上下文独立。

上下文独立

稍微理解一下:
在学生成绩和工作中,在学生提交了Apply,且SAT、Letter为观测变量时,

  • C也就是我们找到的特定的变量,对应Apply。
  • Z是观测变量,对应Letter、SAT。
  • X对应上例中的Job。
  • Y对应其他节点,Diffculty, Intelligence, Grade啥的。
    此时这些变量之间的关系就称为上下文独立

样例2:


image.png

3. 特定上下文CPD

3.1 树-CPD

3.1.1 定义

一个学生获得工作的流程如下:首先学生求职(Apply:0不参加,1参加),若学生不求职,则招聘者先考虑SAT成绩,如果SAT成绩足够好,则发放offer,如果SAT分数低,则从教授那获取Letter,由此作出相应的决定。根据需求,可将CPD改成下图右侧的形式。


3.1.2 独立性
image.png

3.2 multiplexer CPD (多路复用器CPD)

3.2.1 定义

其中George必须决定是否把推荐信交给Acme咨询公司的招聘官,这些推荐信来自其教计算机科学课程101的教授或教计算机科学课程102的教授。
George获得工作的机会与推荐信L1和L2的好坏同时相关,因此两个都是其父节点。然而,根据George做出的选择C,依赖性只与两者之一相关。图5.5(a)显示了网络的片段,(b)显示了变量J的树-CPD。


multiplexer CPD.png
3.2.2 独立性

L1和L2与Job之间的结构实际上是一个v-结构,因此,当Job为未知变量时,L1与L2相互独立。

但是当做出选择时,如果选中letter1,那么Jon与letter2连着的边就会断了。所以,P(L1 \perp_c L2| J, C1)

image.png
对于C2也同理。
所以这种模型对应的概率图应该为:
image.png
图中是的一个拷贝,是选择器,其选择范围为。

3.3 Noisy-or 模型

3.3.1 定义

在这个例子中,另一位教授也为学生写了推荐信。与之前的例子不同,教授所教的班是一个小型的讨论班,她了解每一位学生。她的推荐信的好坏取决于两件事情:

  1. 学生是否参与了课堂教学,比如提出过好的问题(Q);
  2. 和其是否完成一篇好的期末论文(F)。

粗略地讲,每件事都足以让教授写出一封好的推荐信。然而,教授有可能会忘记学生的参与。另一方面,她也可能没有阅读学生的论文,并且因此无法判断学生期末论文的好坏。这样,处理过程中存在着一些干扰。


这种模型的概率图为:


在图中,是泄露概率,由对应的独立得出,是所有集合的结果。其中,
  • X_i=0时,说明X_i不想让Z_i为1,则
    P(Z_i=1 | X_i=0)=0
  • X_i=1时,说明X_i想让Z_i为1,而X_i变成Z_i的概率设为\lambda_i,则
    P(Z_i=1 | X_i=1)=\lambda_i

所以,

  • 在给定X_1,...,X_k的情况下,Y=0的概率可以表示为:
    P(Y=0 | X_1,...,X_k)=(1-\lambda_0) \prod_{i=1}^{k}(1-\lambda_i)
  • 在给定X_1,...,X_k的情况下,Y=1的概率可以表示为:
    P(Y=1 | X_1,...,X_k)=1-P(Y=0 | X_1,...,X_k)
3.3.2 独立性

在该模型中,X_1,...,X_k变量对于Y的影响两两独立。

改模型的Z不仅仅局限于OR,也可以用AND、MAX等函数。

3.4 sigmoid CPD 模型

可以看成是Noisy-or模型的变种

sigmoid-CPD
,体现了不同变量的权重。 image.png
从上图可知,当的数量越多,越大,而权重的大小则代表了坡度的陡峭程度

4. c参考文献

Coursera——Probabilistic Graphical Models
Probabilistic Graphical Models/Probabilistic Graphical Models - Principles and Techniques

相关文章

网友评论

      本文标题:概率图模型基础(4)——局部概率模型

      本文链接:https://www.haomeiwen.com/subject/nlqpectx.html