前言

由于要准备学习GATK中的一些算法，所以要学习HMM(Hidden Markov models)，于是就掉进了更大的一个坑里，也就是PGM(Probailistic Graphical Models)。
之前只是知道有HMM，但是还不知道PGM，据说HMM是PGM的一种，所以还是先把PGM学下来比较好。

由于网上的内容十分的多，我这里主要写下我的学习心得以及笔记，还有一些提供的学习网站。许多的基础知识，例如，图、联合概率、贝叶斯公式之类的我这里不加赘述。主要是一些坑，一些不会在别人技术博客里出现的内容，可能比较适合和我一样刚入门的人吧。

图的构建

贝叶斯网络

主要说的是这幅图。

由于我需要进行python代码的构建，构建一个适合的类去初始化一个PGM。但是这个概率表在我看来就是一个十分困扰的内容？

如何得出的这个表？
在一次实际的构建中，我们是不一定可以直接获取这个表的。而很可能需要对训练集进行一次训练，而这个训练的过程，除了将连续型的特征转化为离散型的特征外，同时也要统计各种排列组合下的各个状态的频率。

如在该图中，共有3个特征i，d，g，各特征各有2，2, 3个状态数。所以对应的有223=12中排列组合。此处可以用python中的itertools.product进行笛卡尔乘积。

边缘化(Marginalisation) or 和出(Summing Out)
在求这个概率表的过程中。如图。顾名思义，先要把所有Cavity=0的prob进行加和，也就是"和出"

图的分类

若为有向图，则可以说是贝叶斯网络的一种，可以使用贝叶斯公式进行展开，阐明了因果关系。

由方向和 Local conditional distributions(CPD) 决定联合概率

若为无向图，则为Markov 随机场，只能给出变量间的关系。给定了变量间的相关性，但无前后因果。

由关联和Local contingency functions(potentials) 决定联合概率

图的小定义

I-map(independency map)
在卡内基的cs课程的ppt中讲到了这一个定义，但是一开始是比较难懂的，但感谢谷歌的搜索。这里阐释一下。I-map是为了描述一个图和一个概率分布的关系的。图本身有一系列的条件独立关系，概率分布也有，如果图的条件独立关系都在这个概率分布的条件独立关系中的，即图的...为概率分布的....的子集，那么该图叫该概率分布的I-map