美文网首页
基因共表达网络的分析比较

基因共表达网络的分析比较

作者: 结城明日奈_7e51 | 来源:发表于2022-12-16 19:48 被阅读0次

文章:Comparative Analyses of Gene Co-expression Networks: Implementations and Applications in the Study of Evolution
DOI:10.3389/fgene.2021.695399

这篇文章对在跨物种间的基因共表达网络的构建以及分析方法进行了阐述,基于不同物种间的基因共表达的比较,能够从进化层面上来研究不同物种之间的关系。

对于非模式物种来说,构建PPI网络是一件非常困难的事情。利用RNA-seq数据进行表达模式的分析能够帮助研究者挖掘到更多有意思的信息。

生物学网络中的图形对齐

在生物学网络中进行比对的时候,有以下几个层面的比较:

  1. 网络比对中的生物相似性(Biological Similarity )
    1)序列比对BLAST
    2)GO富集之后根据GO terms进行不同网络之间的比对

  2. 网络比对中的拓扑相似性(Topological Similarity)
    measure similarity between the topological properties of networks
    基于网络拓扑属性的对比对方法:
    常见的相似性包括对计算度数(degrees)、聚类系数( clustering coefficients)、偏心率(eccentricities)、光谱特征(spectral signatures)和小图度数特征(graphlet-degree signatures )这些差异。例如如果两个节点的邻节点能够很好的匹配,那么认为这两个节点也能够很好的匹配。

最早引入的图形比对方法IsoRank是用在PPI网络上的,后来也被用在GCN网络上。这个算法最初的比对依据是:如果不同网络的两个节点被对齐,那么他们的邻节点也会被对齐。(这是一个 spectral methods的应用)图的邻接矩阵的特征值和特征向量对于节点的排列是不变的。因此,如果两个图是同构的,它们的邻接矩阵(adjacency matrix )将有相同的特征值( eigenvalues)和特征向量(eigenvectors)。根据拓扑学上的相似性(topological similarities),使用迭代谱系聚类算法( iterative spectral clustering algorithm )对蛋白质的总权重进行排序,以确定保守的蛋白质。IsoRank和IsoRankN由于其指数级的时间复杂性,最多能够分别对齐5个和6个物种。

  1. 目前的一些改进策略
    改进对齐方法的一些主要策略是:
    (1)结合局部和全局对齐方法
    (2)提高拓扑和同源相似性之间的一致性
    (3)在进行对齐时同时考虑节点和边缘相似性
    (4)对齐两个以上的网络
    (5)结合一组对齐方法
    使用局部或全局对齐的局限性正在用试图在局部和全局对齐之间找到平衡的方法来解决。例如,IGLOO利用已有的(可互换的)局部对齐方法来进行初始对齐,然后应用全局对齐策略来提高拓扑相似度得分。再比如,GLAlign最初应用MAGNA++(一种全局对齐方法)来收集匹配节点列表和从生物信息中生成的种子节点列表。然后使用Align-MCL(一种局部对齐方法)来产生最终的对齐结果。
    对PPI网络进行对齐有一个很大的局限性在于PPI网络本身就是不完整的,特别是对于非模式物种来说。所以利用基因共表达网络能够更好地去探索不同物种之间的进化关系。

基因共表达网络中的对齐方法

共表达网络表现出许多与PPI网络相同的特性。它们都倾向于具有无标度结构(scale-free structure),并具有很强的模块化(modularity )。

  1. 聚类比对方法Cluster Alignment Methods
    这些方法根据基因的已知正交关系将共表达基因的模块连接在一起。我们把这些方法称为聚类排列方法。以下研究都用过这些方法来识别脊椎动物物种间的基因共表达。:

Oldham, M. C., Horvath, S., and Geschwind, D. H. (2006). Conservation and evolution of gene coexpression networks in human and chimpanzee brains. Proc. Natl. Acad. Sci. U.S.A. 103, 17973–17978. doi: 10.1073/pnas.0605938103
Chan, E. T., Quon, G. T., Chua, G., Babak, T., Trochesset, M., Zirngibl, R. A., et al. (2009). Conservation of core gene expression in vertebrate tissues. J. Biol. 8:33. doi: 10.1186/jbiol130
Weber, C. C., and Hurst, L. D. (2011). Support for multiple classes of local expression clusters in Drosophila melanogaster, but no evidence for gene order conservation. Genome Biol. 12:R23. doi: 10.1186/gb-2011-12-3-r23

Yan, K.-K., Wang, D., Rozowsky, J., Zheng, H., Cheng, C., and Gerstein, M. (2014). OrthoClust: an orthology-based network framework for clustering data across multiple species. Genome Biol. 15:R100. doi: 10.1186/gb-2014-15-8-r100

  1. OrthoClust
    基于模拟退火策略提出的OrthoClust。OrthoClust的目的是根据考虑模块化和集群内基因间已知正交关系(orthologs to modules )的成本函数(cost function ),发现正交物到模块的最佳分配。

Yan, K.-K., Wang, D., Rozowsky, J., Zheng, H., Cheng, C., and Gerstein, M. (2014). OrthoClust: an orthology-based network framework for clustering data across multiple species. Genome Biol. 15:R100. doi: 10.1186/gb-2014-15-8-r100
他们基于一组据报道在几个物种(包括worm和fly)中具有保守表达模式的1,288个基因评估了他们的方法。这些基因被称为元基因,并预计在对齐的集群中。与排列方法IsoRank相比,88%的元基因被IsoRank排列,而81%的元基因被OrthoClust归入同一集群。这一观察结果表明,PPI网络对齐方法也可以比较GCNs。

  1. Biclustering双聚类方法
    双聚类可以用来同时对基因和样本进行聚类,以检测在不同的条件子集下共同表达的基因。每个基因模块或双簇可以包含不同条件子集下的共表达基因,而且基因可能包含在多个模块中。应用双聚类来识别不同物种间的保守和独特的基因表达模式是有限的。

  2. COMODO
    这个方法利用自适应共聚类( adaptive co-clustering )来比较多达三个物种。
    该算法从基因-基因相关矩阵开始,矩阵的每个轴都是两个物种中的一个,共表达较高的基因被分组到指定阈值的模块中,该阈值是用双聚类法确定的(Bergmann et al,2003)。矩阵中对角线项以下的组,其相互之间的共表达程度比与其相邻基因的共表达程度高,被认为是种子模块。这些种子在每个物种中被扩大,直到得到一对模块,相对于模块的大小,共享的正交物的数量在统计学上是最佳的。由足够数量的正交基因对连接起来的模块种子通过遍历可能的集群阈值组合的空间而逐渐扩展,使用贪婪和蛮力搜索( greedy and brute force search)的组合,在每个物种的基因-基因阈值矩阵上表示,直到达到最佳状态。这些比较技术似乎有几个缺点。

首先,评估的方法依赖于每个物种可用的功能注释的质量。另外,可能需要应用多个截断点(multiple cut-offs )来确定识别可能的种子模块的最佳共表达严格值。最后研究人员解释说,他们所比较的物种的基因在其他物种中有一个或两个相应的同源物,这是他们的方法按预期工作的要求(Zarrineh等人,2014)。因此,如果所比较的物种在进化上比较远,或者有很大一部分一对多或多对多的映射,不太适合使用他们的统计方法。

用于比较基因共表达网络的WGCNA

gene co-expression network analysis (WGCNA)是用于GCNs模块检测的最广泛技术之一。

WGCNA也被用于模块保守性的统计,以对不同聚类和物种的模块进行比较。以下两篇研究也提供了一些参考。

Du, J., He, X., Zhou, Y., Zhai, C., Yu, D., Zhang, S., et al. (2020). Gene coexpression network reveals insights into the origin and evolution of a theanine-associated regulatory module in non-camellia and camellia species. J. Agric. Food Chem. 69, 615–626. doi: 10.1021/acs.jafc.0c06490

Pembroke, W. G., Hartl, C. L., and Geschwind, D. H. (2021). Evolutionary conservation and divergence of the human brain transcriptome. Genome Biol. 22, 1–33. doi: 10.1186/s13059-020-02257-z
为了衡量一个模块的保守情况,WGCNA可以用来确定它在一个独立的测试网络中是否可重复(或保守)。其中一个分数是Zsummary分数,它是密度和连接性( density and connectivity)保守统计的综合分数,以确定一个模块与参考模块的相似度是否明显高于随机的基因样本。

图1

图1显示了WGCNA应用于Bozek等人(2014)公开提供的人类和猕猴的RNA-seq数据集的结果。前额叶皮层的样本被用来构建GCNs。通过使用WGCNA和对dN(每个位点的非同义替换)和dS(每个位点的同义替换)的估计,也研究了网络连接与分子进化率的相关性。连接度更高的基因或在更多的跨组织模块中发现的基因显示出更大的序列约束性。

基于比对的方法和对基因共表达网络的应用

表1显示了已发表在文献中的GCN比对。很少有人从GCN的角度来描述图谱排列方法,也很少有人利用这些方法来比较不同物种的GCN,以推断它们的进化。


表1

表1中介绍的比对利用了局部或全局的相似性措施,或两种策略的结合,用于不同的进化应用。许多比对还侧重于检测基于拓扑学和生物学相似性的潜在保护证据。一些方法被应用于功能注释转移。在进行比对后,研究了网络之间的相似性,如相似的网络中心性和保守的中心基因,以及可能保守的生物途径。其他的方法则侧重于全局和局部相似性的测量,反映了网络排列后的已知生物学和进化关系。关于每种方法的结果的更多细节可以在附录中找到。需要注意的是,这些研究并没有对网络排列在进化研究中的所有应用进行深入探讨,该领域的未来研究仍有许多工作可以做。

相关文章

网友评论

      本文标题:基因共表达网络的分析比较

      本文链接:https://www.haomeiwen.com/subject/sfodqdtx.html