1 background--updateR()
想用Y叔的ggtree来画进化树,但安装软件时,提示R4.0.1太旧,没法安,之前有几个包也出现这种情况,因此,必须先更新R,在Rstudio里运行这3行命令
install.packages("installr")
library(installr)
updateR()
结果弹出提示框:最好在RGui里面进行升级,不要在Rstudio里升级。于是又换到R里面
进入R
然后依次输入命令:
library(installr)
updateR()
然后就开始更新了,虽然R4.0.3只有84.2M,但无奈网速超级慢,只有等待,先学习一下进化树的基本知识。
2 什么是进化树
进化树/系统发育进化树/系统进化树/系统发生树/Phylogenetic tree
来源:http://yulab-smu.top/treedata-book/chapter1.html
-
根 (root,上图红色的点)
即:所有分支的共同祖先,有根树表示从最早共同祖先,即由根开始,随着时间的连续分支事件引起的一组相关物种的分歧。
无根树,则表示分类单元之间的进化关系,但不鉴别最早共同祖先。 -
结点 (node)
node 可分为 外部节点与内部节点:
外部节点(external node)又叫叶节点leave(上图绿色的点),代表参与分析的序列样本。
内部节点internal node(上图蓝色的点),代表假定祖先。 -
进化支 (Branch)或边(edge)
也叫分支,指两种及以上的生物或序列组成的进化关系。
如何从进化支来看是直系同源还是旁系同源?
-
外类群(outgroup)
与分析序列相关的生物序列,但是具有较远的亲缘关系,比如分析的10个样本都是属于A科B属的植物,加入的外群是1个来自原A科C属的植物。
一般要利用外群才能建有根树。 -
进化分支长度(branch length)
也叫遗传变异度,进化距离。一般会标注在分支线上,代表进化支变化的程度,越短代表差异越小,进化距离越近(而标在Node上的数字,大多都是置信程度Bootstrap,代表该node以下的树结构的可靠程度 (上图中没有标出置信程度))。
A与B物种之间的进化距离=A物种的进化分支长度+B物种的进化分支长度。 遗传变异度实际代表基因组序列中每个位点碱基的替换频率,计算方法也很简单:变异度=变异碱基数/总碱基数(%)。我们常见的形式,通常以0-1的小数来表示,代表100个碱基位点的变异度大小。
进化分支长度越长代表着该分支对应的物种或基因的变化越大。根据基因序列相似度与进化时间假说对这种进化距离进行转换,就可以得到分子钟。比如,用它分析病毒进化树,甚至可以推断出初代病毒产生的时间点。 -
距离标尺(distance scale)
生物或序列间差异数值的单位长度,相当于进化树的比例尺。
3 构建进化树技术
- 产生树
- 进化距离计算
-
树的可信度评估
每日一药
网友评论