美文网首页
生信地基系列--PWM位置权重矩阵

生信地基系列--PWM位置权重矩阵

作者: 可能性之兽 | 来源:发表于2022-10-29 01:16 被阅读0次

位置权重矩阵(PWM)又称位置特异性权重矩阵(position-specific weight matrix ,PSWM)或位置特异性评分矩阵(position-specific scoring matrix ,PSSM) ,是生物序列中常用的基序(motif)表示。

PWM 通常来源于一组被认为是功能相关的对齐序列,并且已经成为许多用于计算基序发现的软件工具的重要组成部分。

变换顺序如下
序列转换为位置频数矩阵(position frequency matrix),然后转换为位置概率矩阵(position probability matrix,PPM)———>将位置转移矩阵转换为位置权重矩阵

序列到位置概率矩阵的转换

PWM 对字母表的每个符号都有一行(DNA 序列中的核苷酸为 4 行,蛋白质序列中的氨基酸为 20 行),模式中的每个位置为一列。在构建 PWM 的第一步中,通过计算每个位置上每个核苷酸的出现次数来创建基本位置频数矩阵 (c position frequency matrix,PFM)。从 PFM 中,现在可以通过将每个位置的先前核苷酸计数除以序列数来创建位置概率矩阵 (PPM),从而对值进行归一化。形式上,给定长度为 l 的 N 个对齐序列的集合 X,计算 PPM M 的元素:

image.png

其中i 属于 (1,...,N) (1,...,N), j 属于 (1,...,l), k是字母表中的符号集,I(a=k)是一个指标函数,如果a=k,I(a=k)为1,否则为0。

例如,给定以下DNA序列。

例如,给定以下 DNA 序列:

image.png
image.png

PPMs和PWMs都假定图案中各位置之间的统计独立性,因为每个位置的概率都是独立于其他位置计算的。从上面的定义可以看出,一个特定位置的数值之和(也就是所有符号的总和)是1,因此每一列可以被视为一个独立的多项分布。这使得计算给定PPM的序列的概率变得很容易,只要将每个位置的相关概率相乘就可以了。例如,鉴于上述PPM M,可以计算序列S = GAGGTAAAC的概率。

image.png

在计算PPM时,如果基于小数据集,通常会应用伪计数(或拉普拉斯估计),以避免矩阵条目的值为0。[2] 这相当于将PPM的每一列乘以Dirichlet分布,并允许对新序列(即不属于原始数据集的序列)计算概率。在上面的例子中,如果没有伪计数,任何在第4位没有G或在第5位没有T的序列的概率都是0,不管其他位置如何。

位置概率矩阵到位置权重矩阵的转换

大多数情况下,PWM中的元素被计算为对数似然。也就是说,一个PPM的元素使用背景模型b进行转换,这样。

image.png

这公式描述了如何计算PWM(左)中的一个元素,M_{k,j},。最简单的背景模型假设每个字母在数据集中出现的频率相同。也就是说,字母表中所有符号的b_{k}=1/k(核苷酸为0.25,氨基酸为0.05)。将这一转换应用于上面的PPM M(没有添加假数),就可以得到。


image.png

矩阵中的 无穷 项清楚地表明了添加伪计数的优势,尤其是在使用小型数据集构建 M 时。背景模型不需要为每个符号具有相同的值:例如,当研究具有高GC 含量,C 和 G 的值可能会随着 A 和 T 值的相应降低而增加。

当使用对数似然计算 PWM 元素时,可以通过将 PWM 中每个位置的相关值相加(而不是相乘)来计算序列的分数。序列分数表明该序列与随机序列的不同程度。如果序列作为功能位点和随机位点的概率相同,则得分为 0。如果它更可能是一个功能站点而不是一个随机站点,则得分大于 0,如果它更可能是一个随机站点而不是功能站点,则得分小于 0。 [1]序列分数也可以在物理框架中解释为该序列的结合能。

相关文章

  • 生信地基系列--PWM位置权重矩阵

    位置权重矩阵(PWM)又称位置特异性权重矩阵(position-specific weight matrix ,P...

  • 位点特异矩阵

    1.简要说明位点特异矩阵(position weight matrix ,PWM), 或者位置特异矩阵(posit...

  • 生信地基系列--tabix

    高通量测序产生的存放大量数据的文件往往十分庞大,即使是压缩文件,也有几十G到几百G,这样的文件获取其中某一区间信息...

  • 生信地基系列--Rosalind

    其实这个网站应该属于真正走计算机和算法的生信人员那方面的真正地基一样的东西,能解决这些问题的估计手造n个生信轮子应...

  • 生信地基系列--bedtools

    虽然有人写的挺好的了最全Bedtools使用说明--只看本文就够了 - 简书 (jianshu.com)[http...

  • 生信地基系列--deeptools

    The tools — deepTools 3.5.0 documentation[https://deeptoo...

  • 生信地基系列--生信格式互转

    格式互转大全 其他工具基本都是有名的存在,就不怎么介绍了,主要介绍最后面几个 bed文件转成等bin的bedgra...

  • 生信地基系列--IRanges包

    IRanges包 IRanges 包旨在表示序列、表示沿这些序列的索引的范围以及与这些范围相关的数据。 IRang...

  • 生信地基系列--refseq格式

    RefSeq NCBI Reference Sequence Database(简称RefSeq)是美国国家医学图...

  • 生信地基系列--bedpe格式

    BEDPE 格式类似于 BED 格式,可用于描述成对的基因组区域。由于bed文件原则上不能表示跨染色体的信息,因此...

网友评论

      本文标题:生信地基系列--PWM位置权重矩阵

      本文链接:https://www.haomeiwen.com/subject/dxhqtdtx.html