前言
由于要准备学习GATK中的一些算法,所以要学习HMM(Hidden Markov models),于是就掉进了更大的一个坑里,也就是PGM(Probailistic Graphical Models)。
之前只是知道有HMM,但是还不知道PGM,据说HMM是PGM的一种,所以还是先把PGM学下来比较好。
由于网上的内容十分的多,我这里主要写下我的学习心得以及笔记,还有一些提供的学习网站。许多的基础知识,例如,图、联合概率、贝叶斯公式之类的我这里不加赘述。主要是一些坑,一些不会在别人技术博客里出现的内容,可能比较适合和我一样刚入门的人吧。
相关内容
http://blog.163.com/bioinfor_cnu/blog/static/19446223720136694453439/
http://www.cs.cmu.edu/~epxing/Class/10708-14/lecture.html
图的构建
贝叶斯网络主要说的是这幅图。
由于我需要进行python代码的构建,构建一个适合的类去初始化一个PGM。但是这个概率表在我看来就是一个十分困扰的内容?
- 如何得出的这个表?
在一次实际的构建中,我们是不一定可以直接获取这个表的。而很可能需要对训练集进行一次训练,而这个训练的过程,除了将连续型的特征转化为离散型的特征外,同时也要统计各种排列组合下的各个状态的频率。如在该图中,共有3个特征i,d,g,各特征各有2,2, 3个状态数。所以对应的有223=12中排列组合。此处可以用python中的
itertools.product
进行笛卡尔乘积。
边缘化(Marginalisation) or 和出(Summing Out)
在求这个概率表的过程中。如图。顾名思义,先要把所有Cavity=0的prob进行加和,也就是"和出"
图的分类
- 若为有向图,则可以说是贝叶斯网络的一种,可以使用贝叶斯公式进行展开,阐明了因果关系。
由方向和 Local conditional distributions(CPD) 决定联合概率
- 若为无向图,则为Markov 随机场,只能给出变量间的关系。给定了变量间的相关性,但无前后因果。
由关联和Local contingency functions(potentials) 决定联合概率
图的小定义
- I-map(independency map)
在卡内基的cs课程的ppt中讲到了这一个定义,但是一开始是比较难懂的,但感谢谷歌的搜索。这里阐释一下。I-map是为了描述一个图和一个概率分布的关系的。图本身有一系列的条件独立关系,概率分布也有,如果图的条件独立关系都在这个概率分布的条件独立关系中的,即图的...为概率分布的....的子集,那么该图叫该概率分布的I-map
网友评论