本内容为【科研私家菜】生信数据库系列课程
R小盐准备介绍那些小众又重要的生信数据库
让我们跟着R小盐来一起学习吧
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
今天R小盐介绍的数据库是GSEA | MSigDB (gsea-msigdb.org)
01 MSigDB数据库
分子签名数据库(The Molecular Signatures Database , MSigDB) 是一个用于GSEA软件的注释基因集的集合。GSEA, Gene Set Enrichment Analysis,即基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法。
对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。
该数据库是不断更新和完善的,目前最新版本为v7.5.1, 更新于2018年7月,共收录了17810个基因集。
02 MSigDB
MSigDB将所有的基因集划分为8大类别:
-
H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。 -
C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。 -
C2:curated gene sets
该类别包含了已知数据库,文献和专家支持的基因集信息, -
C3 : motif gene sets
该类别包含了miRNA靶基因和转录因子结合区域等基因集合,示意如下
无论是转录因子还是miRNA, 都是通过特定的motif序列来识别可以结合的区域,这些基因集合,本质上为具有相同motif序列的基因集。
- C4 : computational gene sets
该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因,示意如下
- C5 : GO gene sets
该类别包含了Gene Ontology对应的基因集合。
- C6 : oncogenic signatures
该类别包含已知条件处理后基因表达量发生变化的基因。
- C7 : immunologic signatures
该类别包含了免疫系统功能相关的基因集合。
效果如下:
数据库引用:
Subramanian, Tamayo, et al. (2005, PNAS)
Liberzon, et al. (2011, Bioinformatics)
Liberzon, et al. (2015, Cell Systems),
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 生物信息在线数据库
网友评论