美文网首页便捷工具
GeneTribe一个的共线性同源基因推断策略

GeneTribe一个的共线性同源基因推断策略

作者: 花生学生信 | 来源:发表于2023-12-26 11:14 被阅读0次

    该研究提出了整合共线性的同源基因推断新策略(GeneTribe)并构建了小麦族同源基因数据库(Triticeae-GeneTribe)。基于小麦族物种基因组间和亚基因组间的共线性分析,该研究提出了六倍体普通小麦的“4A-5A-7B染色体重排”是两次染色体易位事件的结果,并明确了重排的基因组区间的精细边界;同时研究了春化基因Vrn2的复杂进化历史,提出Vrn2同源基因在普通小麦基因组中的复杂分布是包含串联重复、多倍化、染色体易位和基因丢失在内的一系列事件叠加的结果。该工作为泛基因组时代的植物比较基因组学研究和功能基因挖掘提供了新思路。

    相关文章链接

    A Collinearity-Incorporating Homology Inference Strategy for Connecting Emerging Assemblies in the Triticeae Tribe as a Pilot Practice in the Plant Pangenomic Era - ScienceDirect

    github网址GeneTribe (chenym1.github.io)
    基因组上的一对多和多对一情况

    GeneTribe推断出的四种不同类型的同源关系的示意图,分别是“RBH”(逆向最佳匹配),“SBH”(单向最佳匹配),“一对多”和“单例关系”。两个访问的关系是有方向性的。

    main ppl of GeneTribe

    GeneTribe算法的设计和支持同源数据库的数据结构。GeneTribe为二倍体组装体构建了一个共线性块表和多个同源基因表。GeneTribe使用动态参数α将BSRs(双向最佳匹配)和CBSs(单向最佳匹配)集成起来,以获得无方向的同源匹配得分(HMS)。在计算HMS时,还引入了基因注释置信度和染色体组信息作为惩罚比例。共线性块表和同源基因表构成了数据库层。通过基于这些表的查询界面支持同源查询、分析和可视化功能。
    GeneTribe主要步骤(图2B):
    (1)、选择一个代表性转录本。
    (2)、对一对组装体执行all-vs-all BLASTP,并通过E值对基因对命中进行预过滤。
    (3)、在核心步骤中,GeneTribe旨在为每个基因对产生一个无方向的匹配得分,结合了序列相似性和共线性。归一化的blast得分比例(nBSR),取值范围为0-1,用于表示序列相似性(补充图2)。基于由MCscan(Tang et al., 2008)生成的初始共线性块,我们生成了一个无方向的共线性块得分(nCBS),以提供共线性信息,其取值范围也为0到1。原始的共线性块得分(CBSs)被存储为共线性块表。我们通过引入动态加权因子α,基于nCBS和nBSR的加权组合,为不同组装体对生成了一个基因组范围的同源匹配得分(HMS)。在调整比率α在0-1范围内,直到达到最大数量的RBH(逆向最佳匹配)对之前,对所有基因对重新计算HMS(补充图4)。此外,我们引入了一个“惩罚比例”到HMS中,以惩罚位于不同染色体组或具有低置信度基因模型的基因对。
    (4)、根据HMS对最终的同源基因对进行筛选,然后用于构建同源基因表。对于每一对组装体,HMS是对称的,并存储为完整的“一对多”表。然后使用HMS表来评估同源关系,这与非方向性相对应(图2A)。
    (5)、对于每个二倍体组装体对,GeneTribe最终生成一个RBH表、两个SBH表、两个单例表和两个一对多表作为同源基因表,以及两个共线性块表。这些表被期望稳定地存储同源关系,并随着新的基因组组装的增加而增强可扩展性(图2B)。
    查询接口通过提供“1-1-互相最佳查询”、“1-对其最佳查询”和“1-对多查询”的形式在数据库层实现。这些共线性块表和同源基因表构成了TGT服务器的基础。这些表被存储在一个SQL数据库中,并形成了TGT的数据库层。基于查询接口可以灵活开发高级分析功能,如共线性分析和基于同源的GO富集分析(图2B)。

    Similarity Score

    GeneTribe使用BSR方法(Rasko et al., 2005)来评估基因对的相似性。由于BSR在两个组装之间是不对称的,GeneTribe提供了一个无方向的BLAST得分比(nBSR),通过将两个方向的BSR进行归一化组合来计算,计算公式如下:


    表示序列A与序列B之间的BLAST位分数。对于极少数情况下,nBSR大于1,它将被设定为1。因此,nBSR受到限制,范围在0到1之间。在BSR的评估中(补充图2),如果根据BLASTP(E值< 1 10−5)一个基因与多个目标基因匹配,那么它被认为是多重匹配基因。

    网站链接TriticeaeGeneTribe - A homology database for Triticeae tribe (wheat, durum wheat, barley, and their relatives) (cau.edu.cn)

    图1
    图2

    Phylogenomic discovery of deleterious mutations facilitates hybrid potato breeding - ScienceDirect

    图3 参考该方法的文献

    参考:
    Chen Y, Song W, **e X, et al. A collinearity-incorporating homology inference strategy for connecting emerging assemblies in the triticeae tribe as a pilot practice in the plant pangenomic era[J]. Molecular Plant, 2020, 13(12): 1694-1708.

    Wu Y, Li D, Hu Y, et al. Phylogenomic discovery of deleterious mutations facilitates hybrid potato breeding[J]. Cell, 2023, 186(11): 2313-2328. e15.

    相关文章

      网友评论

        本文标题:GeneTribe一个的共线性同源基因推断策略

        本文链接:https://www.haomeiwen.com/subject/jrrlndtx.html