进化树上的N种数值

作者: 栽生物坑里的信息汪 | 来源:发表于2019-07-08 23:02 被阅读80次

    序言

    大晚上的不知道干些啥好,想起了之前积累的一个小小的问题。
    这里搜一下资料,快速的整理出一小篇文章好了~

    内容大概就是 N种phylogenetic tree上不同的数字

    https://www.researchgate.net/figure/The-phylogenetic-tree-of-Bacillus-sp-D12-based-on-16S-rRNANCBI-accession-number-of-each_fig1_281824668

    基本的系统发育树

    系统发育树大概是最最常见的一个结果图了,大家都知道树长什么样,但是却不一定知道上面的数字意义是什么。又或者只知道其中的几种。


    The tree terminology

    以上的树结构,算是比较常见的一种,一般也会有图例表示,多长的长度代表多远的距离,所以甚至会不标记任何的数字,因为支长(branch length)本身就携带了大量的信息。

    那么如何阅读一棵树的信息呢,上图也写的比较清楚。物种A与物种B的距离就是AA+BB,至于这个支长是什么,下文再去说有哪些测度(metrics)可以用以表征这个相似度,但是总的而言,如果需要比较两个物种的距离,即支长的不断相加。

    树是什么?

    如果要我解释的话。

    树就是距离矩阵的可视化结果

    每个叶子节点就是距离矩阵的横轴或者纵轴,由于树上每两个叶子节点间都可以两两到达,结合上述的物种的距离,最后就会得到一个距离矩阵,而一个距离矩阵却可以得到多个树的结果。(取决于 有/无根 树的画法等)

    数字的定义

    Coinfection with a novel fibropapilloma-associated herpesvirus and a novel Spirorchis sp. in an eastern box turtle (Terrapene carolina) in Florida

    上述的定义,其实也可以看这篇文献的原始的legend。首先斜杠不代表除法,仅仅代表的意思。左侧贝叶斯后验概率的百分比,右侧是通过bootstrap进行计算的百分比,简单点说,两个都是代表了这个node以下的树结构的可靠程度。
    关于bootstrap的计算,可以参考Bootstrapping phylogenetic Trees: theory and methods

    Genome and transcriptome sequencing identifies breeding targets in the orphan crop tef (Eragrostis tef)

    标在Node(顶点)上的数字,大多为置信程度,代表该node以下的树结构的可靠程度 (A图)
    标在边上的数字,则为支长的具体数值。(B图)

    建树的方法

    虽然建树的标准有很多,但是概括来说,phylogenetic tree的方法有三种

    1. Parsimony (简约法)

    将需要比较的东西进行 binary(二元)化,例如有无毛发,有无皮肤等基于特征的方法。


    简约法

    为什么叫简约法?
    就是因为二元化后,通过层次递进,就可以推导出共同祖先。即用最少的信息即可描述子节点的过程。

    2. Distance Matrix based

    基于距离矩阵,有距离矩阵就有树。。。如上

    3. Maximum likelihood(最大似然)

    通过最大似然的估算,一个很长的贝叶斯概率计算,通过最大化结果,从而得到树


    结尾

    。。。这是篇很简单以及很水的文章(毕竟只花了1h不到。。),希望大家也可以1分钟看完。。

    reference

    Phylogenetics
    PCB_Lect11_Phylogen_Trees.pdf
    youtube Maximum likelihood for phylogenetic tree reconstruction

    相关文章

      网友评论

        本文标题:进化树上的N种数值

        本文链接:https://www.haomeiwen.com/subject/stezhctx.html