1、介绍
- 基因功能富集分析:包括过表达分析ORA、功能分类打分FCS、基于同路拓扑结构PT和基于网络拓扑结构NT和基因富集分析GSEA。常用的是ORA和GSEA。
- ORA(Over Representation Analysis):也就是我们熟知的传统的基因富集方法,是一种超几何分布检验方法(Fisher's Exact Test),也就是常见的2x2方法。ORA是一种广泛使用的方法,用于确定已知的生物学功能或过程是否在实验衍生的基因列表中被过度表达(丰富),例如,差异表达基因列表(DEGs)。
- GSEA(Gene Set Enrichment Analysis):ORA方法只考虑显著差异基因,这种策略会因过高的阈值而忽略变化较小的基因,GSEA直接解决了这一局限性。所有的基因均可用于GSEA,GSEA聚合了一个基因集内每个基因统计数据,因此能够以一种小而协调的方式检测预定义的基因集中所有基因的变化情况。
- 基因功能注释数据库:收集了各种物种基因的功能注释的数据库,包括GO、KEGG、Reactome和MSigDB等常见功能注释数据库
分析基因集是否富集
这里的基因集,是事先根据功能或者其他的一些原理把很多的基因分类成不同的基因集合,具体一个基因集可以是某一个通路或者go term中的所有基因,也可以是一个miRNA靶标对应的多个基因等等。GSEA提供了多个分类基因集,在分析数据时,只需要选择不同基因集就可以,当然也可以自己制作基因集。我们可以对每一个小的基因集(GeneSet )里面的基因对应一下上一步排序表里面的位置,例如上图中的GeneSet1 (一个箭头代表一个基因),看基因集里的成员在基因列表里面的分布情况是否均匀,例如GeneSet1就在基因列表中均匀分布,GeneSet2里面的成员主要分布在基因列表的顶部,GeneSet3里面的成员主要分布在基因列表的底部。如果基因集中的成员在基因列表中均匀分布,说明这个基因集不在这两个表型中富集。如果基因集中的成员在基因列表的顶端例如图中的GeneSet2,说明这个基因集在第一个表型ClassA中富集。如果基因集中的成员在基因列表的底部例如图中GeneSet3,说明这个基因集在第二个表型ClassB中富集。
计算基因集的ES值
GSEA分析的第三步就是使用加权法计算基因集的ES值(enrichment score),对位于中部(与性状相关性低)的部分采用较小的权值,所以越集中在两端,与表型的相关性越高。ES曲线最大值为富集分数(Enrichment Score)。
GSEA和ORA方法的比较
GO富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集,这就涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。
GSEA不局限于差异基因,而是从基因集的富集角度出发,理论上更容易囊括细微变化对生物通路的影响。另外,对于时间序列数据或样品有定量属性时,GSEA的优势会更明显,不需要每个分组分别进行富集,直接对整体进行处理(可以类比WGCNA分析)。

转自:基因功能富集方法和基因注释数据库介绍 - 简书 (jianshu.com)
单细胞之富集分析-4:分组水平GSVA - 简书 (jianshu.com)
网友评论