依然是这篇文章《A comparative encyclopedia of DNA elements in the mouse genome》,作者提出了一个新的考察两个物种之间表达保守性的方法:即利用共表达来鉴定两个物种基因的表达保守性,Neighborhood analysis of conserved co-expression(NACC)
对于human和mouse两个物种,我们取它们的 orthologs ,分别在human和mouse的表达矩阵里面计算两两基因之间的相关性,
然后根据这些相关性画一个联合概率密度分布图(想象成3维的概率密度分布图):
这个图的横坐标代表 human 中 orthologs 基因对的相关性;纵坐标表示 mouse 中 orthologs 基因对的相关性
比方说 human 和 mouse 中研究的基因一共有5个,那么human中 gene_1 和 gene_2 的相关性为 c1,而 mouse 中 gene_1 和 gene_2 (orthologs)的相关性为 c2,那么就产生了有序数对( c1,c2 );human中 gene_1 和 gene_3 的相关性为 c3,而 mouse 中 gene_1 和 gene_3(orthologs)的相关性为 c4,那么就产生了有序数对( c3,c4 )。那么gene_2 与 gene_3 的计算也是类似的(依此类推)。最后统计各个有序数对出现的频率,以有序数对建立二维坐标就可以得到联合概率密度分布图了
NACC
NACC的步骤如下:
- 分别计算human和mouse的基因表达的相关系数
- 在human中确定一个基因test gene,并且在human的基因相关系数矩阵中选出前20个与test gene相关性系数最高的前20个基因,定义这些基因在human中是与test gene共表达的gene set,并定义为human neighborhood genes。将test gene和human neighborhood genes在mouse中找到同源基因,并且在mouse的基因相关系数矩阵中计算test gene(test gene在这里理解为在mouse中的直系同源基因)与human neighborhood genes(human neighborhood genes在这里理解为human neighborhood genes在mouse中的直系同源基因)的欧式距离定义为 d1
- 在mouse中,针对该test gene在mouse的基因相关系数矩阵中选出前20个与test gene相关性系数最高的前20个基因,定义这些基因在mouse中是与test gene共表达的gene set,并定义为mouse neighborhood genes。将test gene和mouse neighborhood genes在human中找到同源基因,并且在human的基因相关系数矩阵中计算test gene(test gene在这里理解为在human中的直系同源基因)与mouse neighborhood genes (mouse neighborhood genes在这里理解为mouse neighborhood genes在human中的直系同源基因)的欧式距离定义为 d2
- NACC定义为 ΔD = (d1 + d2) / 2
Distance表示的是ΔD = (d1 + d2) / 2,上图中蓝色分布是在基于同源基因映射 ΔD(共表达基因是人和小鼠的同源基因) ,而红色分布是随机选取的基因(共表达基因是非同源基因,随机挑选而得)
上图的结果显示,在A物种中,与test gene共表达的基因,同源到另一个物种B上,与在B中的test gene(A中的test gene在B中的直系同源基因)也是共表达的。共表达的基因往往富集在一个通路上,而近缘物种往往功能都是相似的,因此在相同的条件下,在A中共表达的那些基因在B中也共表达
怎么理解ΔD越小,表达越保守
首先,在human里面,test gene与human中共表达的20个基因表达相关性很高,那么意味着在mouse中的欧式距离d1与human中的欧式距离d2如果比较相近,说明在mouse中的test gene与human中共表达的20个基因的orthologs的相关性也比较高,从而进一步说明了两者之间的共表达模式是相同的(共表达模式相同指的是与test gene共表达的这20个基因在human中与在mouse中具有相同的表达模式,即test gene与这20个基因无论是在human中还是mouse中的相关性都很高)
网友评论