Connectivity Map数据库使用扰动产生的基因表达特征, 发现疾病,基因和治疗之间的关系。数据库中共有百万多个扰动处理后得到的基因表达特征,这些扰动包括小分子化合物,基因过表达,基因敲低。研究药物治疗或者基因扰动导致的细胞差异表达信号可以与数据库中的所有表达信号比较相似度。相似度高表示连接(connected),相似的转录特征提示连接的两种扰动具有相同的生物学效应。研究者可以利用这种连接关系产生疾病治疗相关的假设,例如发现新的治疗性药物。
CMAP 数据及注释情况
image.png数据介绍:总共>80k种扰动包含基因扰动如基因敲低或者过表达,小分子化合物,产生>1M种基因表达特征(表达向量)。部分扰动的生物学功能是被注释的,这部分扰动产生的基因表达特征组成Touchstone数据集(参考集合也就是高度可信的阳性数据)。部分扰动没有被注释(没有明确的生物学意义),作用于细胞产生的基因表达信号组成Discover集合,可与通过建模预测其生物学功能。
CMap的功能
1:识别小分子化合物的作用机制和靶标:计算未知作用机制的小分子化合物和已知作用机制的化合物的连接度(connectivity),连接上的两种化合物具有相似的作用机制。再通过生物实验验证这种假设。计算小分子化合物和基因扰动失去该功能的表达特征的连接度,高连接度的基因扰动就是该小分子化合物的靶标。
2:发现新的治疗方法:计算病人的基因表达特征和数据库中所有表达特征的连接度,连接上扰动可以表征病人细胞内可能发生的扰动。
3: 突变分析:计算突变的表达特征和正常状态下的关系,推测突变导致的变化
4:细胞谱系分析:比较不同细胞系的细胞的表达谱,识别谱系特异性的标志物。
5:通路分析:分析转录谱识别受基因过表达GOF或者基因敲低,敲除LOF影响的通路。
6:等着我们去开脑洞
CMap 和 NIH LINCS的关系
CMap项目得到LINCS资金上支持,构建L1000平台,在扰动处理后得到1M个表达特征谱。在LINCS通过基因表达的改变表征当细胞暴露于各种扰动试剂中后发生的细胞过程,数据量更大,涵盖其他物种。
CMap数据在CLUE和GEO,LINCS中的区别
CLUE存储一系列使用L1000平台产生的扰动基因表达特征(除各种分析工具),由NIH资金支持产生的新的数据都会传到GEO数据库中,同样的数据也会传到LINCS portal。
CMap的L1000平台使用的landmark是否能代表广泛生物学通路和功能以及在不同细胞系中广泛表达。
通路和功能多样性:GO富集分析,主要关注BP(biological process)。使用超几何检验,FDR调整P值,发现入选GO通路是细胞通用的生物学过程如酶的绑定,催化反应等,说明这些基因与细胞特异性强的GO term中重合的基因分数小,说明landmark不是集中某些特定的通路而是具有广泛代表性。
不同细胞系中表达情况:下载GTEx数据集中RNA-seq数据,挑选出每个样本中L1000基因,根据每个样本绘制boxplot。广泛表达。
image.png
L1000的基因空间
在L1000数据集中,包含基因和对应的数值矩阵(原始数据,标准化后的数据,差异表达数据)。L1000中有12328个不同的基因,其中978个基因是landmark基因(通过L1000平台直接测量得到),其余的11350个基因是计算推测出来的(基于GTEx数据库中的RNA-seq数据),其中9196基因是最具信息量的。978landmark gene+9196 well inferred genes构成Best INFerred Genes基因空间,这个空间查询用于计算connectivity score和功能性关联。当时用L1000产生的表达信号做扰动分析时直接使用landmark就可。
比较CMap2和CLUE
CMap2中的数据是使用Affymetrix microarrays测量7000左右的使用约1300种小分子处理后的细胞的基因表达谱。CLUE中包含1百万个左右通过L1000平台产生基因表达谱,覆盖约50000中分子扰动。这两个平台计算相似度的算法是类似的(基于富集)。在CMap中只包含小分子化合物扰动,在CLUE中包含基因扰动(shRNA,cDNA,CRISPERs)
Lamb, et al., (2006). The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease. Science 313, 1929–1935
Subramanian et al. (2017). A Next Generation Connectivity Map: L1000 platform and the first 1,000,000 profiles Cell 171, 1437–1452
网友评论