Orthofinder 2.3

作者: ytbao | 来源:发表于2021-12-13 11:27 被阅读0次

        Homolog是同源基因。

        Orthologs,Orthologues 直系同源,是指不同物种之间的基因,起源于共同的祖先,基因功能可能一样,但又因为进化的关系,使得功能有丢失或者增加。如图 B 所示,在 Human 和 Mouse 间 HuA 与 MoA 是直系同源基因,在 Human 和 Chicken 间 HuA 与 ChA1、ChA2 是直系同源基因。如果有物种 Cattle 且包含 CaA1 和 CaA2 基因,则在 Cattle 和 Chicken 间 CaA1、CaA2 与 ChA1、ChA2 是直系同源基因。直系同源基因存在一对一、一对多、多对多三种情况。其中一对多、多对多也称为 共直系同源基因(co-orthologs)。每两对物种间的直系同源基因汇总信息存放在 OrthoFinder 输出文件夹中的 Orthologues 文件夹中。

        直系同源组(Orthogroup,正交群):各物种间 由最近共同祖先(LCA)中某基因 进化 而得到的一组基因。如图 A 中 HuA、MoA、ChA1、ChA2 都是由同一个基因进化得到,构成直系同源组。正交群中的所有基因都来自单个祖先基因。因此,正交群中的所有基因都有类似的序列和功能。由于基因重复和丢失在进化中经常发生,一对一的直系同源物很少见,通过分析orhtogroup所有直系同源的情况(一对一,多对一,多对多),我们可以分析数据的所有情况。

        Paralogs, Paralogues 旁系同源,是指由于gene duplication产生的,是同一个物种内基因组复制的产物,可能进化为不同的功能,也可能成为pseudogene。如图 C 中 Chicken 内 ChA1 与 ChA2 是一对旁系同源基因。

    OrthoFinder 功能

    1.查找直系同源群(orthogroups)和直系同源物(orthologs)

    2.推断所有直系同源群的有根基因树(rooted gene trees)

    3.识别这些基因树中的所有基因复制事件(gene duplication events)

    4.推断有根物种树(rooted species tree),并将基因复制事件从基因树映射到物种树上

    5.为不同物种基因组间的比较分析提供全面的统计信息

    通过修改 config.json 文件,OrthoFinder 支持用户自定义调用软件

        -M <opt>:使用 MSA 或 DendroBLAST 基因树推断,opt=msa,dendroblast [默认=dendroblast]

        使用默认选项,物种树推断是为DendroBLAST发育树。它使用从支持每个二分的单基因座基因树派生的物种树的比例作为其支持的度量。也就是根据序列相似度推断进化关系。这是作者推荐的方法,在损失部分准确性的前提下提高了运算效率。

        如果改为使用 -M msa 选项,则将使用串联的多序列比对代替物种树推断,按照极大似然法构建系统发育树,并且所有二分法的支持度值为 100%(并不都是100%,都挺大的倒是)。这样结果会更加准确,但是代价就是运行时间会更久。在这种情况下,支持值对应于从完整的多基因比对中获取的引导复制,这是完全不同的事情。这是最常用的支持度量,对于相同的数据总是会报告更高的支持值。

        如果先用了默认的DendroBLAST,想测试下传统的MSA方法,那么也不需要重头运行,因为有一个-b参数可以在复用之前的比对结果(xuzhougeng)

        在物种发育树的推断上,OrthoFinder使用STAG算法,利用所有基因进行构建系统发育树,而非单拷贝基因。当使用MSA方法进行系统发育树推断时,OrthoFinder为了保证有足够多的基因(大于100)用于分析,除了使用单拷贝基因外,还会挑选大部分是单拷贝基因的直系同源组。这些直系同源组的基因前后相连,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符,那么该列被剔除。最后基于用户指定的建树软件进行系统发育树构建。结果在"WorkingDirectory/SpeciesTree_unrooted.txt" 。使用STRIDE算法从无根树中推断出有根树, 结果就是"SpeciesTree_rooted.txt"。

        STAG是一种从所有基因推测物种树的算法,不同于使用单拷贝的直系同源基因进行进化树构建。

        OrthoFinder默认用mafft进行多序列联配,用fasttree进行进化树推断。多序列联配软件还支持muscle, 进化树推断软件还支持iqtree, raxml-ng, raxml。例如参数可以设置为-M msa -A mafft -T raxml.并行化参数: -t参数指定序列搜索时的线程数,-a指的是序列搜索后分析的CPU数。


    OrthoFinder 分析过程:

    分为如下几步:

    1.BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3进行搜索,寻找潜在的同源基因。(除了BLAST, 还可以选择DIAMOND和MMSeq2)

    2.基于基因长度和系统发育距离对BLAST bit得分进行标准化。

    3.使用RBNHs确定同源组序列性相似度的阈值

    4.构建直系同源组图(orthogroup graph),用作MCL的输入

    5.使用MCL(Markov Cluster Algorithm)对基因进行聚类,划分直系同源组

        其中每个 orthogroup 的蛋白及序列信息存放在 Orthogroup_Sequences 文件夹中,单拷贝 orthogroup 的蛋白及序列信息存放在 Single_Copy_Orthologue_Sequences 文件夹中,orthogroup 的统计信息存放在 Comparative_Genomics_Statistics、Orthogroups 文件夹中。如 OrthoFinder 自带案例(ExampleData)中总共包含 2733 个基因,MCL 将 2202 个基因划分为 604 个 orthogroups(gene_num > 2),剩余 531 个基因为离散点(每个基因独立成组)。

        使用 FastMe 软件 对每个 orthogroup(gene_num >= species_num)构建 无根基因树(gene tree)。如自带案例中总共生成 324 个基因树文件。

        使用 STAG(Species Tree Inference from All Genes)软件 根据 orthogroups(包含所有物种,如自带案例推断出的 604 个 orthogroups 中只有 316 个 orthogroups 中的同源基因在所有物种中均有分布)推断 无根物种树(species tree)。

        通过参数 -M dendroblast 或 -M msa,OrthoFinder 可以调用 STAG 中两种构建物种树的方法:DendroBLAST(默认) 和 CMSA(Concatenated Multiple Sequence Alignment,联合多序列比对)。

        使用 STRIDE(Species Tree Root Inference from Gene Duplication Events) 通过基因复制事件的不可逆性为无根物种树、无根基因树赋根,得到有根物种树、有根基因树、基因间的直系同源关系、基因复制事件。结果存放在文件夹 Species_Tree、Gene_Tree、Orthologues、Gene_Duplication_Events、Comparative_Genomics_Statistics 中。

    具体的分析和参数解释还可见中文 生信技术公众号 https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw 

    运行结果存放在文件夹:....../OrthoFinder/Results_日期

        标准OrthoFinder运行会生成一组文件,这些文件描述了直系同源群,直系同源,基因树,解析基因树,有根物种树,基因复制事件以及所分析物种集的比较基因组统计数据。


    (1)直系同源群(Orthogroups)目录

        Orthogroups.tsv:一个制表符分隔的文本文件,每行包含属于单个直系同源群的基因。来自每个直系同源群(Orthogroup,OGXXXX)基因被组织成列,每个物种一列。

        Orthogroups_UnassignedGenes.tsv:一个制表符分隔的文本文件,其格式与Orthogroups.csv相同,但包含未分配给任何直系同源群的所有基因。

        Orthogroups.txt(传统格式):包含Orthogroups.tsv文件中描述的直系同源群,但使用OrthoMCL输出格式。(方便需求)

        Orthogroups.GeneCount.tsv:一个制表符分隔的文本文件,其格式与Orthogroups.csv相同,记录了每个 Orthogroup 中基因在物种间的分布情况,可以用于分析同源基因在物种间的收缩和扩张。

        Orthogroups_SingleCopyOrthologues.txt:单拷贝直系同源组。每个物种正好包含一个基因的直系同源群列表,即它们包含一对一的直系同源物。它们非常适合进行种间比较和种树推断。(实际使用时候可以根据需求挑选)。建树选择物种太多时,可能文件为空。

    (2)直系同源物(Orthologues)目录

        以物种为单位,记录了每个物种与其他物种间的直系同源基因。

        直系同源物目录为每个物种包含一个子目录,该子目录又包含本物种与其他所有物种的成对比较文件,列出该物种对之间的直系同源物(Orthogroup)。直系同源物可以是一对一,一对多或多对多,这取决于直系同源物分化后的基因复制事件。文件中的每一行都包含一个物种中的基因,而该基因是另一物种中该基因的直系同源物,并且每一行都被交叉引用到包含这些基因的直系群中。

        简单点说直系同源物(Orthologues)目录能够找到俩俩物种间的所有直系同源基因。

    (3)基因树(Gene Trees)目录

         每个 直系同源群orthogroup(gene_num >= 4)的有根基因树结构。默认基因树没有支持值,OrthoFinder 为了节省计算时间没算了,有方法获取支持值(没去学)。

    (4)解析的基因树( Resolved Gene Trees)目录

        为每个直系同源群推断出有根的系统发育树,使用 OrthoFinder复制损失合并模型 进行解析。(根据需求用)

    详细说明可见 https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw

    (5)物种树(Species Tree)目录

        SpeciesTree_rooted.txt:从所有包含STAG支持的直系同源组推断的STAG物种树此文件有bootstrap值。

        SpeciesTree_rooted_node_labels.csv:与上述相同的树,但是节点被赋予标签(而不是支持值),用于解释基因重复数据。

        Orthogroups_for_concatenated_alignment.txt:仅在 -M msa 模式下输出,列出了所有串联起来用于推断物种树的 orthogroup ID

     (6)比较基因组统计(Comparative_Genomics_Statistics)目录

        Duplications_per_Orthogroup.tsv:记录了每个 orthogroup 中推断出的基因重复事件数量。

        Duplications_per_Species_Tree_Node.tsv:记录了物种树中每个节点、物种中发生基因重复事件的数量。

        Orthogroups_SpeciesOverlaps.tsv:每个物种对之间共享的 orthogroup 直系同源群(以方矩阵形式)。不同物种间的同源基因的交集

        OrthologuesStats _ *.tsv:是制表符分隔的文本文件,其中包含矩阵,这些矩阵给出了每对物种之间一对一,一对多和多对多关系的直系同源物数量。

        Statistics_Overall.tsv:记录了有关 orthogroup 的常规统计信息。

        Statistics_PerSpecies.tsv:以物种为单位,记录了有关 orthogroup 的常规统计信息。

        OrthologuesStats _ *:记录了每对物种之间一对一、一对多和多对多关系的直向同源物数量。

        在Statistics_Overall.csv 和Statistics_PerSpecies.csv中的一些名词:

    Species-specific orthogroup:完全由一个物种的基因组成的直系同源群

    G50和O50,指的是当你直系同源组按照基因数从大到小进行排列,然后累加,当加入某个组后,累计基因数大于50%的总基因数,那么所需要的直系同源组的数目就是O50,该组的基因数目就是G50。

    Single-copy orthogroup: 单拷贝直系同源群,每个物种中仅有一个基因的直系同源群。这些直系同源群是推断物种树和许多其他分析的理想选择。

    Unassigned gene: 未分配的基因,无法与任何其他基因放入直系同源群的基因,无法和其他基因进行聚类的基因。

    (7)基因复制事件(Gene Duplication Events)目录

        拥有基因树意味着 OrthoFinder 可以识别发生的所有基因复制事件。OrthoFinder 在文件Species_Tree/ SpeciesTree_rooted_node_labels.txt 中标记物种树的节点。

        基因复制(Gene Duplication):基因在物种进化过程中发生了复制。一般根据每个 orthogroup 的基因树结构,通过每次分枝后左、右枝间是否包含旁系同源基因来确定 基因复制 事件。

        注意!OrthoFinder 只统计记录支持值(Support) >= 50% 的的复制事件。支持值是指复制后两个基因副本未被丢失的比例,Support >= 50% 表示复制后至少有一半基因在演化中保留了下来。

        下图为自带案例中直系同源组 OG0000006 的有根基因树结构。首先分析 N16(node 16),其左右枝 N10、N11 是旁系同源(agal),说明 N16 发生了一次基因复制。不断递归可以发现,N19 后发生了 4 次基因复制。同理分析 N15,其中 N2、N4、N6 为旁系同源(geni),说明 N15 后发生了 2 次基因复制。结合 N15、N19,说明 N20 后发生了 6 次基因复制。由于 agal、geni 中基因与 N1 均不是旁系同源,所以 OG0000006 中总共发生了 6 次基因复制事件。

        Duplications.tsv:记录了程序推测出的所有基因复制事件的信息。其中 Species Tree Node 表示基因复制事件发生时所对应的物种树节点(即复制是在该物种内发生的);Gene tree node 表示基因复制事件发生时所对应的基因树节点与基因复制事件对应的节点;Support 表示复制后两个基因副本未被丢失的比例;Type 中 Terminal 表示重复发生在物种树的末端分支上,Non-Terminal 表示重复发生在物种树的内部分支上,被多个物种共享;Genes 1、Genes 2 为基因列表,其中 Genes 1 表示来自复制后基因的一个副本;Genes 2 表示来自复制后基因的另一个副本。

        SpeciesTree_Gene_Duplications_0.5_Support.txt :记录了物种树每个节点、分枝上包含的基因复制事件的总和,格式为节点或物种名 + 数字(基因复制事件数量)。

    SpeciesTree_Gene_Duplications_0.5_Support.txt .抄自 生信技术    https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw

        以上给出了基因复制事件的Summary。其中每个节点显示节点名称,后跟一个下划线,然后是映射到物种树中每个节点充分支持的基因复制事件的数量。如果至少 50% 的后代物种保留了复制基因的两个拷贝,则基因复制事件被认为是“得到充分支持的”。例:对于四足动物的共同祖先 N1,有 2458 个得到充分支持的基因复制事件。

     (8)直系同源群(Orthogroups sequences)序列

            每个直系同源群的FASTA文件给出了每个直系同源群中每个基因的氨基酸序列。

     (9)单拷贝的直系同源群序列(Single copy orthologue sequences)

            与直系同源群序列目录相同的文件,但仅限于每个物种仅包含一个基因的直系同源群。

    (10)MultipleSequenceAlignments 文件夹

        此文件夹仅在 -M msa 模式下输出,均为 FASTA 格式文件。

        1.记录了每个 orthogroup 中序列间的多序列比对结果。

        2.记录了程序通过 CMSA 算法过滤后的 orthogroup 中各序列串联后的多序列比对结果,同时比对结果中空位数 > 50% 的列已被删除。

    还会有一个名为WorkingDirectory的目录,其中包含运算过程的中间文件,例如blast结果,DIAMOND 比对结果,STAG 输出的无根物种树等。2.3.12版本还生成了一些其他文件夹,没看了

    画系统发育树:

    1.基因树(Gene Trees):根据每个直系同源群推断的系统发育树。

        基因树:指基于单个同源基因差异构建的系统发生树。这种树代表的仅仅是单个基因的进化历史,而不是它所在物种的进化历史。

        Orthogroups_SingleCopyOrthologues.txt:用来看画基因树应该选择哪一个直系同源群的文件。该文件中每个物种正好包含一个基因的直系同源群列表,即它们包含一对一的直系同源物。它们非常适合进行种间比较和种树推断。

    2.解析的基因树(Resolved Gene Trees):为每个直系同源群推断出有根的系统发育树,使用OrthoFinder复制损失合并模型进行解析。

    3.物种树(Species Tree):从所有直系同源群推断出的STAG物种树,包含内部节点上的STAG支持值,并以STRIDE为根(-M dendroblast)。

    大部分都是摘抄的,记录有错的地方,麻烦批评指正了。

    看得头晕,挺多还没理解,后面弄WGD再来看看


    声明:本篇多为资料整理总结,仅用于自学记录,侵删,谢谢。感谢作者大大们分享:

    OrthoFinder    https://github.com/davidemms/OrthoFinder

    xuzhougeng    https://www.jianshu.com/p/16e0bbb2ba19

    浓香鸭腿面    https://blog.csdn.net/sinat_41621566/article/details/112320002

    bclhx    火星的后裔    https://mp.weixin.qq.com/s/Jny5cTHqQh9yQx-cKQTWbA#tocbar--ebkh9l

    生信技术    https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw

    相关文章

      网友评论

        本文标题:Orthofinder 2.3

        本文链接:https://www.haomeiwen.com/subject/ppadfrtx.html