GSEA也是功能富集的一种方法,不过和GO的区别是不用选择差异基因。
GSEA是个软件,可以装在win或者mac上都没问题。
下载网址:https://www.gsea-msigdb.org/gsea/index.jsp
打开的界面如下:
点击load data,然后开始导入数据。
image.png
需要导入的数据包括表达量数据、表型数据、背景数据和芯片数据。
表达量数据:FPKM即可,gct格式,下图所示。
1:固定格式已知都是#1.2
2:两个数字第一个22802是基因的个数,第二个4是样本的个数。
3:第三列是描述,其中需要加一个Description,可以都填写na。
image.png
表型数据:样本分类信息,cls格式。
第一行:三个数字分别表示样本总数、样本组数、一直都是1。
第二行:#、样本1的名称(或前缀)、样本2的名称(或前缀)
第三行:用0和1代表样本1和样本2。
image.png
背景数据:就是功能或者通路的信息,gmt格式。
这个文件可以在运行的时候软件自动下载,但是,有的背景数据库里可能并不存在你想找的通路,这个时候你就可以自己下载后筛选。
image.png
从软件直接读取很简单哈,这里记录一下如何从网上下载。
进入官网,进入download,注册账号。
image.png
进入之后会有很多的数据库可以下载,包括chip的数据库都存在。
image.png
但是,有的时候下载的数据库里面就是没有你所需要的通路。
例如HIPPO通路,这时候需要检索一下哪些数据库里面包含有HIPPO。
image.png
然后依次点击search gene set--输入HIPPO--search
image.png
获得通路的名字,以及对应的数据库。
然后去相应的数据库下载你需要的通路数据。
按照GMT格式将多个背景数据库合并成一个文件。
image.png
在download界面下载芯片数据。
我一般下载这个。
image.png
好啦~~~数据准备完啦。开始导入数据并且选择参数。
将上述所有得到的数据导入GSEA。
如果样本少,要选择gene set,而不是phenotype。
image.png
点击run开始吧。
网友评论