ClusterProfiler基因集富集分析，支持基因集物种

作者: 微生信 | 来源:发表于2022-09-04 17:53 被阅读0次

专题：富集分析
clusterProfiler挑选背景集做GO富集
GSEA详细解释及结果解读
R 实战 | 使用clusterProfiler进行多组基因富集
富集分析提取背景基因集序列
GSEA学习笔记
RNA 20. SCI 文章中单样本免疫浸润分析（ssGSEA
GASE相关知识（Linux）
msigdbr 包提供多个物种的MSigDB数据
RNA-seq(9):功能富集分析

为什么pathway富集分析结果没有我感兴趣的通路？

GO和KEGG富集分析使用差异基因（上调基因，下调基因，或者上下调合起来的基因）作为输入，使用超几何分布等算法计算显著富集的GO term或者通路，然而，在实际数据处理中，这种使用p值和fold change进行一刀切获得差异基因，然后进行富集分析的分析方法，往往富集不到我们感兴趣的结果。这时，可以试试基因集富集分析（Gene set enrichment analysis，GSEA），它使用全部基因作为输入，找出具有协同差异 (concordant differences)的基因集，兼顾了差异较小的基因（因为在某些条件下，1.5倍的差异可能就算很大的了）。因此，Broad institute出品的GSEA在论文中应用广泛。

图1 GSEA原理（图片来自plob.org）

GSEA分析原理

1，基因排序：

利用所有基因的表达值，计算每个基因在两个表型（ClassA和ClassB）间的差异程度（GSEA提供了6种算法，默认是signal2ratio），然后按照差异程度将基因从大到小排序。这里差异是有正有负的，正值越大表示在ClassA (vs ClassB)中表达越高，越负表示在ClassA中表达越低。

2，分析基因集是否富集：基因集（gene set）是一类具有相关功能（例如免疫相关）或者符合某一标准（例如某个miRNA的200个靶基因）的基因构成的一组基因。图中GeneSet1（一个箭头代表一个基因）里的基因在排序的基因列表里均匀分布（表明这个基因集不在这两个表型中富集），GeneSet2里的基因主要分布在基因列表的顶部（表明在ClassA中富集），GeneSet3里面的基因主要分布在基因列表的底部（表明在ClassB中富集）。
3，计算富集分数：计算每个基因集的富集分数（enrichment score，ES），然后对ES分数进行显著性检验及多重假设检验，从而计算出显著富集的基因集。

常见的GSEA分析软件及评测：

目前常见的gsea分析软件包括：

官方Broad的GSEA；

R版的fgsea，clusterprofiler；

Python版的GSEApy等

Broad GSEA软件分析的两种模式1，常规模式：输入表达矩阵，软件自动计算foldchange，由于要进行显著性检验，因此至少3vs3。2，Prerank模式：输入排序后的基因列表，针对那些例如1vs1这种不能用常规模式计算的数据。
我们使用同一套数据集测试了Broad GSEA prerank模式，ClusterProfiler，GSEApy发现：
1，Broad GSEA最慢，ClusterProfiler最快，算法不太一样 2，Broad GSEA结果与GSEApy的结果重叠度最高，而与clusterProfiler结果重叠度最低。当然三个结果总体上还是趋于一致的。 3，GSEApy占内存最大，可以多线程 4，ClusterProfiler可以绘制多个富集结果，Broad GSEA和GSEApy不可以 5，GSEApy可以添加相关的NES，Pvalue值等，Broad GSEA和clusterProfiler不可以6，出图美观度：个人感觉GSEApy稍微好看些

基于以上测试结果，经过权衡，我们上线了基于ClusterProfiler的基因集富集分析页面。