前段时间看了一篇关于DCA的综述,上周将其内容总结为一篇PPT讲与他人听,总感觉DCA是一个有趣的东西,其背后的原理也不是太难理解,所以就把PPT里的内容放到这里,希望有兴趣的人也能看一看。
这里先简单的说一下背景知识。首先这是个什么东西?DCA(Direct Coupling Analysis),也叫直接耦合分析。假设有M个样本,每个样本可以用一个长度为L的序列(或向量)表示,这个序列上的每一点都是从一个大小为q的有限空间中取值,于是乎序列中所有成对的位点之间的关联关系就组成了一个复杂的关联网络。DCA做的一件事就是从大量样本序列中所有成对的位点之间的关联里找出那些直接的关联,于是我们可以筛选出那些表现出强直接关联的因素并对其进行后续的分析。DCA可以用来干嘛,除了用来做蛋白质分子结构预测,还可以用来解耦复杂网络中节点之间的关联关系,社交网络分析,以及推荐系统等等。
下面就是PPT的内容了,其中有些下面会附上一些简单的说明。PDF格式可以从这里下载。
我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。而如果要定量的表示相似性,就需要使用距离这一种概念。距离可以采用不同的度量方法,一般对于一个距离函数d(x,y),需要满足上面的几个准则。
闵可夫斯基距离比较直观,但是它与数据的分布无关,如果 x 方向的幅值远远大于 y 方向的值,就会过度放大 x 维度的作用。所以还需要对数据进行 z-transform 处理,即减去均值,除以标准差。
马氏距离利用 Cholesky transformation 消除不同维度之间的相关性和尺度不同。
内积距离的结果没有界限,余弦相似度受到向量的平移影响,而Pearson相关系数则能保持平移不变性和尺度不变性。
两个随机变量X,Y的联合分布,形成联合熵。在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。
在一定程度上,相对熵可以度量两个概率分布之间的距离。两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵。
其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。最大熵原理的实质就是,在已知部分知识的前提下, 关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束 和假设根据我们掌握的信息无法作出。
网友评论