1. 数据集介绍
由于人类基因集富集分析,有msigdb数据库,上面有各种数据集的几何,因此做人的基因集富集分析还是很方便的,可以直接从上面下载数据集即可:
从上图可以看到,msigdb的基因集有很多,那么小鼠的基因集呢?通过查询,最终发育有一个小鼠的专门数据集,既GSKB,这是鼎鼎大名的broad研究所开发的数据集,而且这个数据集一共7个数据集,主要介绍如下:
GSKB的7的基因集
GSKB数据基因集来源较多,这里不一一介绍,大家可以直接到官网进行查询相关基因集来源,比如下图:
GSKB数据基因集来源
2. 基因名大小写的问题
在使用GSKB基因的时候,发现了一个非常不解的地方,我们都知道小鼠的基因名称都是首字母大写,其他字母都小写,但是我们在查看基因的时候,发现GSKB的基因集基因名称全部是大写:
library(gskb)
data(mm_miRNA)
mm_miRNA[[1]][1:10]
mm_miRNA基因集查看
从上图看出,基因名称全部是大写,但是后续使用的过程中,并没有大小写转换或者其他的人和小鼠的基因名称转换,这难道包里面默认就可以转换吗?我翻了一下代码,我也没有找到,由于时间的原因,暂时先不看找了,反正对使用没有关系,使用的时候,可以将所有的基因名大写就可以了。
3. GSEA富集
GSEA可以通过java程序进行富集分析,其实也可以通过R进行分析,其具体富集分析过程如下,从这里也可以看出,其基因名没有转换。
GSEA.prog.loc<- "http://ge-lab.org/gskb/GSEA.1.0.R"
source(GSEA.prog.loc, max.deparse.length=9999)
GSEA(
# Input/Output Files :------------------------------------------------
# Input gene expression Affy dataset file in RES or GCT format
input.ds = "http://ge-lab.org/gskb/mouse_data.gct",
# Input class vector (phenotype) file in CLS format
input.cls = "http://ge-lab.org/gskb/mouse.cls",
# Gene set database in GMT format
gs.db = mm_miRNA,
# Directory where to store output and results (default: "")
output.directory = getwd(),
# Program parameters :-----------------------------------------------
doc.string = "mouse",
non.interactive.run = T,
reshuffling.type = "sample.labels",
nperm = 1000,
weighted.score.type = 1,
nom.p.val.threshold = -1,
fwer.p.val.threshold = -1,
fdr.q.val.threshold = 0.25,
topgs = 10,
adjust.FDR.q.val = F,
gs.size.threshold.min = 15,
gs.size.threshold.max = 500,
reverse.sign = F,
preproc.type = 0,
random.seed = 3338,
perm.type = 0,
fraction = 1.0,
replace = F,
save.intermediate.results = F,
OLD.GSEA = F,
use.fast.enrichment.routine = T
)
网友评论