位置权重矩阵(PWM)又称位置特异性权重矩阵(position-specific weight matrix ,PSWM)或位置特异性评分矩阵(position-specific scoring matrix ,PSSM) ,是生物序列中常用的基序(motif)表示。
PWM 通常来源于一组被认为是功能相关的对齐序列,并且已经成为许多用于计算基序发现的软件工具的重要组成部分。
变换顺序如下
序列转换为位置频数矩阵(position frequency matrix),然后转换为位置概率矩阵(position probability matrix,PPM)———>将位置转移矩阵转换为位置权重矩阵
序列到位置概率矩阵的转换
PWM 对字母表的每个符号都有一行(DNA 序列中的核苷酸为 4 行,蛋白质序列中的氨基酸为 20 行),模式中的每个位置为一列。在构建 PWM 的第一步中,通过计算每个位置上每个核苷酸的出现次数来创建基本位置频数矩阵 (c position frequency matrix,PFM)。从 PFM 中,现在可以通过将每个位置的先前核苷酸计数除以序列数来创建位置概率矩阵 (PPM),从而对值进行归一化。形式上,给定长度为 l 的 N 个对齐序列的集合 X,计算 PPM M 的元素:
image.png其中i 属于 (1,...,N) (1,...,N), j 属于 (1,...,l), k是字母表中的符号集,I(a=k)是一个指标函数,如果a=k,I(a=k)为1,否则为0。
例如,给定以下DNA序列。
image.png例如,给定以下 DNA 序列:
image.png
PPMs和PWMs都假定图案中各位置之间的统计独立性,因为每个位置的概率都是独立于其他位置计算的。从上面的定义可以看出,一个特定位置的数值之和(也就是所有符号的总和)是1,因此每一列可以被视为一个独立的多项分布。这使得计算给定PPM的序列的概率变得很容易,只要将每个位置的相关概率相乘就可以了。例如,鉴于上述PPM M,可以计算序列S = GAGGTAAAC的概率。
image.png在计算PPM时,如果基于小数据集,通常会应用伪计数(或拉普拉斯估计),以避免矩阵条目的值为0。[2] 这相当于将PPM的每一列乘以Dirichlet分布,并允许对新序列(即不属于原始数据集的序列)计算概率。在上面的例子中,如果没有伪计数,任何在第4位没有G或在第5位没有T的序列的概率都是0,不管其他位置如何。
位置概率矩阵到位置权重矩阵的转换
大多数情况下,PWM中的元素被计算为对数似然。也就是说,一个PPM的元素使用背景模型b进行转换,这样。
image.png这公式描述了如何计算PWM(左)中的一个元素,M_{k,j},。最简单的背景模型假设每个字母在数据集中出现的频率相同。也就是说,字母表中所有符号的b_{k}=1/k(核苷酸为0.25,氨基酸为0.05)。将这一转换应用于上面的PPM M(没有添加假数),就可以得到。
image.png
矩阵中的 无穷 项清楚地表明了添加伪计数的优势,尤其是在使用小型数据集构建 M 时。背景模型不需要为每个符号具有相同的值:例如,当研究具有高GC 含量,C 和 G 的值可能会随着 A 和 T 值的相应降低而增加。
当使用对数似然计算 PWM 元素时,可以通过将 PWM 中每个位置的相关值相加(而不是相乘)来计算序列的分数。序列分数表明该序列与随机序列的不同程度。如果序列作为功能位点和随机位点的概率相同,则得分为 0。如果它更可能是一个功能站点而不是一个随机站点,则得分大于 0,如果它更可能是一个随机站点而不是功能站点,则得分小于 0。 [1]序列分数也可以在物理框架中解释为该序列的结合能。
网友评论