GSEA 有JAVA版,可以点点点就完成分析,但是数据格式有几点要注意
1.基因表达矩阵推荐用txt格式,比较容易从excel中拷贝,用excel直接保存成txt格式会出现问题。(其实就是还不习惯用linux下提取数据)
根据官方说明文档中给出的格式要求,第一列为基因名,第二列为description,此列对分析没有作用,但是必须要有,第三列开始为样本的表达量,如下图:
1.jpg
基因名必须要大写! 是因为gmt中的reference是人的基因名,所以在分析鼠的时候需要大写,后可以参考同源基因转换后再进行比对
基因名中不能有连字符- 和.x
其他的bug未知
2.自己写cls文件:
4为样本数,2为case数,1为固定格式;
剩下两行自己理解下
后面补充格式要求链接,暂时找不到了
http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
这个是输入格式链接
3.制作gmt格式文件
参考jimmy 大神的教程,常见的KEGG,GO等get set 可以直接在线选择,不需要自己制作,而GSEA官方网站上未提供的gmt则可以自己制作
参考链接 http://www.bio-info-trainee.com/2144.html
4.软件参数设置:
3.jpg
gene set database是选reference的选项,可以选kegg,GO等,或者是自己制作的gmt
collapse选项是指是否要从探针转换成gene name,这里选no(如选yes,需提供chip的name)
Basic fields 可以选择在get set富集的最小基因数
Advanced fields 可以选择画出plots的个数
用gene_set进行分析。
http://software.broadinstitute.org/gsea/msigdb/collections.jsp
建议在以下几个gene sets集做GSEA 分析
H: hallmark gene sets
常见的50个gene sets
KEGG gene sets, 186 gene sets
KEGG pathways 共186个gene sets
C2
BioCarta gene sets, 217 gene sets
CP (Canonical pathways, 1329 gene sets)
CP (KEGG gene sets, 186 gene sets)
C5 BP GO biological process, 4436 gene sets
C6 oncogenic signatures, 189 gene sets
另外,附上jimmy大神的博客作为参考
http://www.bio-info-trainee.com/1282.html
网友评论