Gene ontology enrichment analysis可能是现在生物信息学里面最常用的分析。以前我一般都是用DAVID这个在线工具来做。但是用DAVID有三个主要问题
-
DAVID的注释不全,很多基因都没有更新的注释信息
这个是DAVID这个软件的硬伤 -
DAVID的结果只是列表,并没有好的可视化方式
这样导致每次做基因富集分析的时候都需要去挑选冗余Gene ontology,并且费时耗力的去做文章中需要的可视化图 -
DAVID只支撑3000个GENE,更多的就罢工了
已经记不得有多少次我的GENE LIST中有3000多个基因,然后还要去做随机筛选的内心小崩溃了
这些问题,在clusterprofiler这个包中都得到了很好的解决。
下面总结下clusterprofiler包的主要功能,参考资料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html
-
gene ID转换
支持orgdb的所有物种,以及orgdb所包含的所有gene ID种类 -
groupGO
函数来将列表中的基因根据相对于的gene ontology进行分类 -
enrichGO
函数来做gene ontology富集分析 -
gseGO
函数来做gene set enrichment analysis
为何要用gene set enrichment analysis呢?因为一般做differential expressed genes analysis找出的gene都是有着统计显著差别的单个基因,但是有些基因是属于同一类的(gene set),它们单个的变化并没有那么大,但是这同一类基因都发生了一些变化。这样,当做DEG分析的时候,找不出这些基因,但是gsea分析可以把这种差异找出来。
这里需要注意一个问题。用这个函数的时候,如果要得到典型的gsea的running enrichment score的图,则必须指定geneSetID。这就需要先找出现在已经富集了几个geneSet,然后一个接一个的画出。
-
enrichKEGG
函数来做基因的pathway富集分析 -
完善强大的可视化函数选择,包括了
barplot
,dotplot
,emapplot
,cnetplot
,gseaplot
,browseKEGG
-
compareCluster
用于比较不同gene list的gene ontology富集情况
网友评论