美文网首页
浅探富集分析中的超几何分布

浅探富集分析中的超几何分布

作者: 村长吃火锅 | 来源:发表于2020-09-13 15:42 被阅读0次

<meta charset="utf-8">

<article class="_2rhmJa">

当我们从测序数据中得到了一系列的基因后,我们需要研究这些基因都属于那些通路,那些通路是跟我们研究课题相关的。为了解决这一问题,最常用的做法就是做通路注释然后做通路富集分析,看看我们得到的基因都分布在哪些通路。
超几何分布是富集分析的常用方法,常用的GO富集分析都是用超几何分布计算的。下面将浅显的探讨一下超几何分布的原理。

1、超几何分布

超几何分布是一种非常常见的分布,常用来表示在N个物品中有指定商品M个,不放回抽取n个,抽中指定商品的个数,即X~H(N,n,M),则抽中k件M商品的概率为:

image

在这里我们做一个简单的概念转换即可知道软件是如何做GO富集分析的:

  1. N为GO注释数据库中的总基因数;
  2. M为数据库中属于某个GO子类的基因数;
  3. n为我们得到的需要进行GO富集分析的基因的总数目4;
  4. k为n中属于M的数目。

因此我们就可以计算基因集n是否在M类中富集的概率。
但是知道这个概率后并不能直接用来作为富集分析的结果,必须要对其进行一个评估,因为我们必须要考虑到随机情况,如果随机从N中抽取n个基因,其中k个在M中的概率很高的话,那我们富集得到的通路意义就是极小的。这时候我们引入p值对富集分析的概率结果进行分析。

2、p-value检验

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。通俗的讲,p值就是指随机出现的概率,p值越小说明越不可能随机出现,也就是说我们得到的结果越具有显著性。
总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
在我们的富集分析中,p值是由下面这个式子计算得到的:

image

上面式子的意思是: 从总N个基因抽n个基因, 作为分母,分子是M个基因有i个落在通路里,有n-i个不落在通路里。 p-value是指你观察到m个基因落在通路里,比这还要更极端的概率之和,所以i是从m到M。 就是说看到更多的基因落在这个通路里的所有可能。所以超几何检验很方便地 可以给你算一个p-value,最后得到p-value<0.01或者0.05,你的结果如果定义p-value<0.05 那就有5%的概率看到是一个假阳性,这里我们只是在谈拿一个通路来做检测, KEGG现在大概有360多个通路,每一个通路都做一个超几何检验,每一次有5%的概率出错,一共进行360次, 那出错的概率就很会大很多, 所以怎么评估最终看到的结果是真的而不是被误导的呢? 你就要算一个叫多假设检验的矫正,只要做了多次的statistical test, 就要做多假设矫正。矫正有多种方法,现在大家用的最多的是FDR校正。

3、FDR校正

FDR矫正的是false discovery rate, 也就是FP/(TP+FP)的期望值,看这个期望值是多少。 如果这个期望值小于0.05,大家就认为有可能是 一个真实的有生物学意义的结果。

image

参考:
北京大学公开课——生物信息学: 导论与方法
伯努利分布、二项分布、几何分布、超几何分布、泊松分布
说说大家经常见到的p值

</article>

23人点赞

生物信息学

作者:井底蛙蛙呱呱呱
链接:https://www.jianshu.com/p/13f46bebebd4
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

相关文章

  • 多重检验校正

    在浅探富集分析中的超几何分布中我们谈到了通过p值大小来确定富集到的基因的显著性,但是p值终归是人定的,我们不能说定...

  • 浅探富集分析中的超几何分布

    当我们从测序数据中得到了一系列的基因后,我们需要研究这些基因都属于那些通路,那些通路是跟我们研究课题相关的。为了解...

  • 浅探富集分析中的超几何分布

    当我们从测序数据中得到了一系列的基因后,我们需要研究这些基因都属于那些通路,那些通路是跟我们研究课题相关的。为了解...

  • 【R语言】超几何分布-富集分析-富集度计算

    使用R语言的包计算超几何分布下的富集程度及Pvalue 参照其他博主的 内容,超几何分布是一种非常常见的分布,常用...

  • R包-KEGG的超几何检验和基因富集分析(菜鸟篇)

    什么是基因富集分析? 基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中...

  • 富集分析

    写在前面: 1某些富集代码 |关于GSEA|某些主流富集分析工具 两类富集分析 A:差异基因富集分析(不需要...

  • 【R画图学习3.1】富集气泡图

    做生信中,最常做的一个工作就是富集分析,例如GO/Pathway富集分析等,而GO/Pathway分析富集的结果目...

  • 学习:StatQuest-Fisher’s Exact test

    前言 这次我们谈论下富集分析的检验,富集分析通常是来看我们感兴趣的内容知否在某个数据集中有富集 富集分析算法 这里...

  • miRNA功能富集分析

    相信大家都做过基因的功能富集分析,小编前面也花了不少篇幅给大家介绍GO和KEGG富集分析 ☞GO和KEGG富集分析...

  • R包clusterProfiler比较不同dataset富集结果

    生物信息分析中,接触最多的莫过于基因富集分析,故在此基础上目前已经开发了很多种富集分析工具,如网页版的DAVID、...

网友评论

      本文标题:浅探富集分析中的超几何分布

      本文链接:https://www.haomeiwen.com/subject/dxonektx.html