我们通过宏病毒组测序,分析鉴定到病毒的种类及丰度后,通常会进一步去研究样品中鉴定到的病毒之间的相关性和互作情况、病毒的进化地位等,以便能更好地了解其生物学特性,提升对检测到的病毒认知。
目前宏病毒组个性化分析内容主要有:病毒基因组系统发育分析、病毒功能基因分析、病毒互作网络图分析、病毒(噬菌体)宿主预测等。本文给大家带来的是病毒系统发育分析,扫码关注,更多宏病毒组个性化分析详解将陆续给您推送。
系统发育树定义
系统发育树(Phylogenetic tree,又称为系统发生树/系统发生树/系统演化树/进化树等),是用来表示物种间亲缘关系远近的树状结构图(Huelsenbeck JP, et al, 2001)。1965年,Linus Pauling等(Zuckerkandl E, et al, 1965)提出了分子进化理论,基于分子特性(DNA、RNA和蛋白质分子),推断物种之间的系统发生关系,由于核苷酸和氨基酸序列中含有生物进化历史的全部信息,因此利用该方法构建的系统进化树更为准确。
系统发育树的应用
对研究中所关注的病毒或新发现的病毒进行系统发育分析,有助于了解物种间进化过程及与已知病毒亲缘关系的远近。对于由病毒引起的疾病,其有助于快速定位宿主来源、探究病毒传播途径、判断病毒是否在短期内有变异,从而为临床医生用药等提供建设性指导。
系统发育树的构建
系统发育树构建主要步骤分为收集数据、多序列比对、数学建模与分析、检验评估、进化树美化。
数据收集
把目标基因组分别与病毒Refseq数据库和病毒NT数据比对,获得构建进化树备选序列,序列文件格式存储为fasta格式文件。
多序列比对
选取相关的序列比对软件(如下表)进行多序列比对,分析同源性并移除不匹配的序列。
软件优点缺点
MEGAX最常用的比对建树软件比对速度慢
可视化图形界面输出格式相对单一
简单方便
Clusterx可视化图形界面比对速度较慢
可输出多种格式(如phy)
Muscle/phylip比对速度快没有可视化界面,需要有一定编程基础去输入代码运用
数学建模与分析
基于距离的方法:非加权分组平均法(Unweighted pair group method using arithmetic average,UPGMA)、最小进化法(Minimum evolution,ME)、邻位归并法(Neighbor joining,NJ);
基于特征的方法:最大简约法(Maximum parsimony,MP)、最大似然法(Maximum likelihood,ML);
贝叶斯计算法:贝叶斯分析方法(Bayesian Analysis)是一种计算假设概率的方法,贝叶斯分析进化树的准确性被认为很高,但是,贝叶斯系统发育模型很复杂,参数设计比较复杂,普及度相对较低。
检验评估
对分析的结果进行自我检验,即我们能否找到第一步提供的数据与已有的物种之间具有的高度同源性,从而判定其来源(origin)。类似于统计学中的效应t/z值。系统发育分析中使用自展值(Bootstrap)来评估结果是否可靠(一般选取500或1000)。严格来讲,选择的自展值要使统计学差异显著,即可信度大于95%。但在微生物领域,一般大于50%就认为可信。
进化树美化
常用的在线美化软件有Evolview(http://www.evolgenius.info/evolview)及
iTOL (http://itol2.embl.de/index.shtml)。两个软件有些参数可以通过添加文本datasets去设置,具体可以去参考软件的help页面,下载参数模板文件进行修改。
美化后示例图如下:
网友评论