美文网首页高质量生信文章收录GSEA
GSEA(Gene Set Enrichment Analysi

GSEA(Gene Set Enrichment Analysi

作者: Juan_NF | 来源:发表于2019-06-04 22:42 被阅读0次

    富集分析方法

    • ORA Over-representation analysis过表达分析,常见的是GO富集分析和KEGG富集分析;
    • FCS functional class scoring功能集打分,常见的是GSEA;
    • PT pathway topology通路拓扑结构分析,代表是SPIA;
    • NT network topology网络拓扑结构分析;

    ORA局限性:

    1.有可能在多重假设检验后不存在具有统计学意义的差异基因存在;
    2.又或者,具有统计学意义的基因很多,但并不富集于统一的生物学主题;相应的阐述可能冗长、主观,主要依赖生物学家的专业知识;
    3.单基因分析可能丢失对通路影响的重要信息;细胞过程通常会对多个基因造成影响; 代谢通路中所有编码基因的表达增加20%对通路造成的影响可能比单个基因增加20倍更重要;
    4.不同的课题组研究同一种生物现象时,得到的具有统计学意义的基因list的overlap很少;

    GSEA的优势:

    1.在基因集的水平上进行分析;
    2.基于先验的生物学知识(基因集S);
    3.不具有统计学意义的基因也会考虑进去(Gene List L);
    4.目的:观察基因集S中的基因在L中是随机分布还是集中在top/bottom(预期是如果富集,会呈现出后面的分布);

    GSEA的步骤

    1.ES(Enrichment Score)的计算
    Kolmogorov-Smirnov test
    • 详细介绍可参见
      https://www.cnblogs.com/arkenstone/p/5496761.html
    • 以gseKEGG为例,K-S test检验的是,treat vs control(geneList-L)的分布与geneSet的分布是否一致,检验得到的结果是ES;
    • geneList为ID依据logFC排序所得,L中的基因在S中,sum increase,不在S中,sum decrease,最终得到的max|sum|即为ES;



    2.ES 显著水平的计算
    permutation test
    • 详细介绍可参见:
      https://www.plob.org/article/3176.html
    • gene_set permutation生成随机基因集(我的理解是,从geneList中随机抽取(number of genes in gene_set)个基因得到),产生ES(S, pi) ,集合所有ES(S, pi) 形成直方图,对ES的显著水平进行检验(p=percentage of ES(S, pi)>=ES(S));
      p.vlaue的解释见:
      https://www.jianshu.com/p/eede4ea05f59
    3.多重假设检验校正
    FDR
    • FDR代表某个基因集的特定NES是假阳性的概率;样本量大(每组至少7个)的情况,使用sample_label permutaion,FDR的阈值建议是0.25,即4个假设中至少有3个是可用的;但如果样本量少的情况下,使用gene_set permutation进行分析,此时,FDR的cutoff应该更严格一些,比如5%
    • FDR是两个分布的比率:(1)permutation背景下,实际的ES versus 所有基因集的所有permutation的ES(2)实际基因集背景下,实际的ES versus 所有基因集的ES;例如,如果分析四个基因集并执行1000次permutation,则第一个分布包含4000个数据,第二个分布包含4个。
    • 建立直方图(所有S和所有permutation),于某个NES(>=0)而言, FDR为NES(S,pi)>=NES的比例(permutation水平下),除以基因集水平下,NES(S)>=NES*的比例;

    不咋华丽的分割线,结合上clusterprofiler的gseKEGG函数理解下:

    gseKEGG

    kk_gse <- gseKEGG(geneList     = geneList,
                      organism     = 'mmu',
                      nPerm        = 1000,
                      minGSSize    = 10,
                      verbose      = FALSE)
    

    课程分享
    生信技能树全球公益巡讲
    https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
    B站公益74小时生信工程师教学视频合辑
    https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
    招学徒:
    https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

    相关文章

      网友评论

        本文标题:GSEA(Gene Set Enrichment Analysi

        本文链接:https://www.haomeiwen.com/subject/fanrxctx.html