物种间基因家族进化分析

作者: Mr_我爱读文献 | 来源:发表于2020-03-02 17:17 被阅读0次

    引言

    同源基因家族的拷贝数在不同物种间普遍存在差异,这种差异是由不同的基因得失速率引起。基因家族的拷贝数变异为物种表型的创新及多样化等提供了遗传基础,并且与生物体基因组大小的进化和物种分化等紧密相关。通过全基因组比较分析, 已经揭示了不同物种间许多基因家族拷贝数发生了显著的数量变化,这种变化与基因得失速率息息相关, 且受到自然选择与遗传漂变的共同作用。例如,白鱀豚基因组在氧化还原、铁离子结合等基因上发生基因家族扩张,而嗅觉基因家族则出现收缩,同时一些色素相关基因则发生了假基因化。通过小须鲸基因组比较基因组研究发现一些与压力应答和低氧代谢相关的基因发生扩张现象,而与毛发形成以及嗅觉相关基因发生收缩。通过严格的基因家族分析,鉴定出弓头鲸基因组41个基因家族发生扩张,且这些基因家族富集于翻译、DNA修复以及衰老等相关GO通路。这些研究结果均揭示了鲸类适应次水生生镜的分子进化机制。因此,深入研究不同物种间基因家族大小的进化,可以帮助我们更好地理解不同生物的物演化进程,同时为理解基因组进化与表型多样性的联系提供理论证据。

    研究基因家族大小进化的主流统计分析工具主要有两款:CAFE(命令行模式)和Count(界面化模式)。CAFE使用随机的出生和死亡过程来模拟一个系统发育过程中基因家族大小的进化,对于一个特定的系统发育树,并给定现存物种的基因家族大小,CAFE可以估计全基因组水平的基因家族的出生率和死亡率,推断所有内部节点上最可能的基因家族大小,确定基因加速损益率的基因家族。然而,CAFE软件的运行以及分析结果整理,往往需要研究者具有数据编程能力,对于生信小白颇有难度。相比之下,Count软件功能强大,操作简便,有多种分析和计算方法可供选择,界面十分友好。所以,本次选择介绍Count软件的使用。

    Count软件分析原理

    Count软件综合了基因进化分析中常用的方法,如Dollo和Wagner简约法(Dollo & Wagner Parsimony)、基因丢失倾向法(Propensity for Gene Loss),以及系统发育新生-消亡模型(Birth-and-Death model)的概率分析方法。它根据系统发育树分支分布的情况以及支长,结合基因家族数目,来推断物种祖先基因组的大小以及各个基因家族的获得、丢失、扩张、收缩情况。

    Count软件主要只需要两个输入文件:带有分支长度的系统发育树(Newick格式,系统发育的分支长度只有在计算基因丢失倾向时使用,在大多数情况下被忽略)和每个物种基因家族的数目。系统发育树可通过IQTREE、RAxML或PhyML等软件构建,每个物种基因家族的数目可通过OrthoMCL或者Orhofinder等软件等获得,具体方法可参考徐洲更大神的简书(链接),本文不再赘述。

    Count软件的使用

    1. 输入树文件

    下载好之后,运行软件,点击首页Session→Start new session来选择要上传的数据。我们今天以软件包test文件夹中的示例文件来进行演示,首先选择KOGs-euk7.tre树文件,树文件包含了物种分支的分布和长度信息。


    2.输入基因家族数目

    树文件载入之后,就可以接着导入基因家族数值统计表了。点击Data→Open annotated table,在这里我们选择test文件夹中的示例文件KOGs-annotated.txt文件,基因家族数值统计表包括了基因家族编号、KOG数据库分类号、详细的注释结果和每个物种的序列数目。另外,


    3.基因家族筛选

    在分析结果的表格中,可以直接使用鼠标或使用逻辑选择条件选择多个基因家族,通过双击弹出菜单中的表格单元格来显示选择标准。如果双击数值列,则选择选项为“等于”、“小于或等于”和“大于或等于”,其参考值取自您单击的单元格。如果双击文本列(注释和族名称),则选择选项为“EQUALS”和“CONTAINS”。通过这种方式,可以选择具有特定功能类别、大小或分类单元表示的族。或者,使用显示某些分析结果的表格,可以基于祖先节点的存在或其他推断特征来定义选择条件。


    4.基因翻转率

    比率模型的信息面板由三部分组成:显示增益率/损失率/复制率数值的表格(左上角)、比率类别的图解(右上角)和分支机构特定增益率、损失率和重复率的图解(下半部分)。


    模型参数设置过程:首先要通过#lin≥1过滤基因家族。第二,需要选择初始模型,可以是预定义空模型,也可以是以前计算的比率模型。第三,需要选择优化的模型架构:增益-损失-复制、复制-损失、增益-损失和纯损失。最普遍的模型是获得-损失-复制模型,因为它没有限制谱系特异速率;复制-丢失模型,假设所有获得率为零;获得-丢失模型,假设所有复制率为零;纯损失模型,假设获得和复制率都为零。第四,需要选择根处的先验分布的类型:泊松分布、负二项分布或伯努利分布。第五,如果树边缘之间的复制率和增益率可能不同,则必须选择该选项。比方说,如果选中了“所有谱系中相同的获得/丢失比”框,则优化假设ˆκe=κ用于某个公共获得率κ,并且优化单个模型参数κ以及ˆTee和可能的ˆλe。第六,需要选择系列间速率变化的类型:这包括离散伽马类别的数量(如果没有伽马变化=1),以及可能的无重复和无获得类别。最终的参数集包括用于数值优化的计算参数。优化分轮次进行:所有模型参数每轮次优化一次。当在连续的两轮中,对数似然(自然对数)变化小于给定的收敛阈值时,优化在给定的最大优化轮次之后或更早停止。

    在“模型参数”选项卡下,您可以设置所有模型参数的初始值,也可以将某些参数排除在优化之外。要从优化中排除某些参数,请选中其“固定”复选框。


    5. 祖先基因家族推断

    然后我们进行下一步的祖先基因家族推算及物种基因组进化分析,Count提供了四种对应的分析方法:

    • Dollo parsimony:假设每个基因家族仅出现一次,然后用系统特异性解释存在-缺失模式;
    • Wagner parsimony:优化每个基因家族个体的得失情况,推断严谨度(penalty)的最小值;
    • posterior probabilities:通过后代(外围分支)基因组大小,计算内部节点基因家族大小的概率以重建祖先的基因组;
    • 基因丢失倾向法PGL (Propensity for Gene Loss)。
      这四种方法都有相似的结果页面,由三部分组成,包括基因家族个性化展示界面、种系进化(基因得失数目)展示界面,以及展示在下方的发育树。


    左上方的表格中每一行代表一个基因家族,它们的信息包括基因家族索引号、名称、功能注释、末端分支出现该家族在的个数(#lin)、该家族在末端分支的出现次数(#mem)和系统进化框架(phylogenetic profile),最后一列列出了使用的分析方法。在进化框架profile 中黑色条块表示基因家族存在,条块的高度与每个节点家族大小的对数成正比。在家族表格中可以选中多行,右方的种系进化(基因得失数目)展示界面(lineage table)会显示基因家族得失的总和,下方的发育树会对所选中家族的进化历史进行可视化标注。

    系统表格合计了选中家族的数目,包括所选基因家族的总数(Families),每个节点展示multi-member家族的总数(:m)、每个节点边缘基因家族的得(:g,gains)、失(:l,losses)扩增(++,expansions)和收缩(--,contractions)。

    分析页面下方展示的发育树显示了所选中的基因家族的进化历史推断情况。当选中的家族数目少于7个时,就会将每一个分开进行展示。如果数目大于7,就会汇总展示总数。图中空的矩形表示基因家族相对于祖先基因组发生了基因丢失,阴影代表存在。上半部分的信息显示了基因家族存在多重成员(multiple members),阴影面积的大小在单个矩形的水平程度的正比就是这个多重成员以及基因家族存在(下部分)的可能性。


    参考链接

    1. https://www.cnblogs.com/huangying78/p/8638506.html
    2. https://www.cnblogs.com/djx571/p/10697673.html
    3. http://www.iro.umontreal.ca/~csuros/gene_content/count.html
    4. https://www.jianshu.com/p/146093c91e2b

    相关文章

      网友评论

        本文标题:物种间基因家族进化分析

        本文链接:https://www.haomeiwen.com/subject/qcgmkhtx.html