一文学懂进化树原理

作者: Bioinfor生信云 | 来源:发表于2023-04-14 21:58 被阅读0次

进化树概念

系统发育树（phylogenetic tree），也叫进化树，是物种间、基因间、群体间乃至个体间谱系关系的一种表现形式。

Node： 分枝的连接点或分枝的尖端都称为节点。内部节点连接分枝；外部节点代表分类单元
Clade：一个祖先节点及其所有后代节点的组合称为一个分支。
Branch Length：分支长度，大多数情况下是分歧度，代表突变的累积

进化树的类型

根据是否指定了根节点，系统发育树可以分为有根树和无根树。

无根树没有指定祖先节点，只能看出各个节点的拓扑结构和相对距离。
有根树指定了根节点，反映了树上物种或基因的时间顺序；一般采用外群定根法，建树时引入亲源关系较远的物种作为外群来定根

进化树的格式

Newick format

带有自展值和分支长度的树：
((A:0.1，(B:0.1,C:0.1)90:0.1)98:0.3,D:0.3);
– A, B, C ,D: 物种名/基因名
– 0.1, 0.3 : 分支长度
– 90,98 : 自展值
具有内部节点ID的树:
((A:0.1,(B:0.1,C:0.1)INT1:0.1[90])INT2:0.3[98],D:0.3);
– A, B, C,D : 物种名/基因名
– INT1, INT2 :内部节点 IDs
– 0.1, 0.3 : 分支长度
– 90,98 : 自展值

The New Hampshire X Format (NHX)

和Newick格式相比多了一个[ ]中的注释内容（贝叶斯软件）

Nexus format

每个区块以BEGIN block_name开始；以END结束。
基本组成
– TAXA block: TAXA区块包含关于分类群的信息
– DATA block:数据块包含数据矩阵 (如：多序列比对).
– TREES block: TREES区块包含使用Newick格式描述的系统发育树

建树过程

准备比对序列（核酸/氨基酸）→多序列全局比对（muscle/mafft）→构建进化树（NJ/ML/bayes）→进化树展示（ITOL/Evolview）

多序列比对

序列比对：根据特定的计分规则，通过一定的算法对两条或者多条DNA或蛋白序列进行比较，找出他们之间最优匹配或者最大相似度匹配。分为全局比对和局部比对两种方式。多序列比对即全局比对，目的是对两条及以上序列全长进行比对，基于全长序列获得最优比对结果。

多序列比对算法

多序列全局比对算法主要以Clustal算法为代表，基本思路是利用动态规划算法。

对所有序列进行两两比对分析，计算相似性
基于两两比对结果，进行聚类分析，产生比对次序（一般用二叉树表示）
根据排序，从相似性最好的两条序列开始，逐个比对直至结束。

比对结果格式
fasta格式

phylip格式

常用的建树方法

基于距离

最简单的计算方法就是就两条序列间不一致的核酸或氨基酸的比例（P距离）不考虑回复替换或者多重替换

核酸替换
距离矫正
1.Jukes-Cantor model（JC69）：假设所有碱基的transition rates和equilibrium frequencies相等

2.Kimura 80 model（K80）：其中，S和V分别是具有transitional和transversional的位点的比例。
核酸替换模型和氨基酸替换模型
1.核酸替换模型
JC69、K80、F81、HKY85、GTR（REV）等
2.氨基酸替换模型
DAYHOFF、JTT、WAG等

非加权算数平均对群法UPGMA
UPGMA（unweighted pair-group method using an arithmetic average，非加权组平均法，非加权算数平均对群法）将类间距离定义为两个类的成员所有成对距离的平均值 .
UPGMA 法包含这样的假定：沿着树的所有分枝突变率为常数。
所以UPGMA 法更容易得到错误的树
邻接法Neighbor-joining
邻接法(Neighbor-joining Method): 该方法通过确定距离最近（相邻）的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点，就可以建立一个相应的拓扑树。

基于特征性状

最大简约法（MP）——最小变化数（祖先状态最小化）
对每种可能的拓扑结构计算最小变更数目，变更数目最少的树为最大简约树
长枝吸引：简约法估计的树趋向于将2个长枝聚合在一起，这种现象称为长枝吸引。这是由于简约法不能对平行和回复突变进行校正导致的
最大似然法（ML）——所有枝长和模型参数最优化
似然值：给定树的拓扑结构、分枝长度、模型及相关参数后，观测得到序列数据的概率
最大似然法：计算得到使似然值最大的进化树及相关参数

概率函数为对已灭绝祖先的所有核苷酸组合可能性求和

贝叶斯推断——基于后验概率(用枝长和后验概率联合计算)
给定序列数据条件下，计算进化树拓扑结构、分枝长度值、模型参数值的后验概率分布；然后根据概率分布确定进化树及相关参数

建树方法的选择

根据多序列比对的结果，如果有极高的序列相似性就选最大简约法（MP），相似性还行就选NJ法，剩下就选ML或者贝叶斯

自展值

自展检验，用来检验所计算的进化树分支可信度。
方法：序列长度为 m 时，从原始 m 个位点进行有返回抽样所得每一序列在 m 个位点的那些碱基得到Bootstrap 样本。抽取100/500/1000个Bootstrap样本，每一 Bootstrap 样本使用相同方法构树，检查原始树的分枝在bootstrap样本构的树中出现的次数，计算比例。

常用的建树软件

最好用的是MEGA、RAxML、fasttree、IQ-tree

树的展示和美化

MEGA: https://www.megasoftware.net/
Figtree: http://tree.bio.ed.ac.uk/software/figtree/
iTOL: https://itol.embl.de/
EvolView：https://www.bio.tools/evolview#

网友评论

本文标题：一文学懂进化树原理

本文链接：https://www.haomeiwen.com/subject/rgqqrdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！