1. 数据集介绍

由于人类基因集富集分析，有msigdb数据库，上面有各种数据集的几何，因此做人的基因集富集分析还是很方便的，可以直接从上面下载数据集即可：

msigdb数据库基因集
从上图可以看到，msigdb的基因集有很多，那么小鼠的基因集呢？通过查询，最终发育有一个小鼠的专门数据集，既GSKB，这是鼎鼎大名的broad研究所开发的数据集，而且这个数据集一共7个数据集，主要介绍如下：

GSKB的7的基因集
GSKB数据基因集来源较多，这里不一一介绍，大家可以直接到官网进行查询相关基因集来源，比如下图：

GSKB数据基因集来源

2. 基因名大小写的问题

在使用GSKB基因的时候，发现了一个非常不解的地方，我们都知道小鼠的基因名称都是首字母大写，其他字母都小写，但是我们在查看基因的时候，发现GSKB的基因集基因名称全部是大写：

library(gskb)
data(mm_miRNA)
mm_miRNA[[1]][1:10]

mm_miRNA基因集查看
从上图看出，基因名称全部是大写，但是后续使用的过程中，并没有大小写转换或者其他的人和小鼠的基因名称转换，这难道包里面默认就可以转换吗？我翻了一下代码，我也没有找到，由于时间的原因，暂时先不看找了，反正对使用没有关系，使用的时候，可以将所有的基因名大写就可以了。

3. GSEA富集

GSEA可以通过java程序进行富集分析，其实也可以通过R进行分析，其具体富集分析过程如下，从这里也可以看出，其基因名没有转换。

GSEA.prog.loc<- "http://ge-lab.org/gskb/GSEA.1.0.R"
source(GSEA.prog.loc, max.deparse.length=9999)
GSEA(
 # Input/Output Files :------------------------------------------------
 # Input gene expression Affy dataset file in RES or GCT format
 input.ds = "http://ge-lab.org/gskb/mouse_data.gct",
 # Input class vector (phenotype) file in CLS format
 input.cls = "http://ge-lab.org/gskb/mouse.cls",
 # Gene set database in GMT format
 gs.db = mm_miRNA,
 # Directory where to store output and results (default: "")
 output.directory = getwd(),
 # Program parameters :-----------------------------------------------
 doc.string = "mouse",
 non.interactive.run = T,
 reshuffling.type = "sample.labels",
 nperm = 1000,
 weighted.score.type = 1,
 nom.p.val.threshold = -1,
 fwer.p.val.threshold = -1,
 fdr.q.val.threshold = 0.25,
 topgs = 10,
 adjust.FDR.q.val = F,
 gs.size.threshold.min = 15,
 gs.size.threshold.max = 500,
 reverse.sign = F,
 preproc.type = 0,
 random.seed = 3338,
 perm.type = 0,
 fraction = 1.0,
 replace = F,
 save.intermediate.results = F,
 OLD.GSEA = F,
 use.fast.enrichment.routine = T
 )