- variable sites
- informative sites
- nucleotide diversity
信息位点的定义:
在两个及以上分类单元(的序列)中存在差异,且其中至少有两种变异类型在该位点出现两次及以上(虽然有了定义自己还是不太明白)
摘自 高老师的系统发育分析完整教程
三个名词的概念自己还不太理解,先把如何计算的过程记录下来,以论文 comparative analysis of six lagetstroemia complete chloroplast genome 中提到的六个紫薇属叶绿体基因组序列为例,使用mafft进行比对,然后计算上面三个指标(论文中的Table4)。
使用之前提到的python脚本下载六种紫薇属植物的叶绿体基因组序列 简单的python脚本批量下载叶绿体基因组序列
species | accession number |
---|---|
L.fauriei | KT358807 |
L.indica | KX263727 |
L.guilinensis | KU885923 |
L.indica “LüzhaoHongdie” | KF572028 |
L.subcostata | KF572029 |
L.speciosa | KX572149 |
第一种方法使用DNAsp软件
1、点击file——open data file读入比对好的数据
2、点击Data——format,依次选择haploid,chloroplast,点击OK
输出的结果包括位点总数(这里需要注意的是DnaSp这个软件计算的总位点数是去掉gap以后的)非变异位点;变异位点;singleton variable sites(这个不知道是什么意思);有效位点数(parsimony informative sites);计算出来的结果和文章中的Table4有些出入,暂时还没有想到原因
4、点击analysis——DNA polymorphism 计算核苷酸多态性 32.PNG
第二种方法使用IQ-tree
IQ-tree是用来构建最大似然树(ML)的一款软件,阅读帮助文档时发现IQ-tree也可以用来计算有效位点的数量,使用到的参数
iqtree -s example.phy -m JC -n 0 -alninfo
-s 指定输入文件
-m 指定模型
-n 暂时不知道是什么作用 <#iterations> Fix number of iterations to stop (default: auto)
-alninfo 将统计结果输出到 .alninfo 文件中 Print alignment site statistics to .alninfo file
31.PNG
结果和第一种方法也不太一样
第三种方法使用在线程序https://indra.mullins.microbiol.washington.edu/DIVEIN/
这种方法和第二种输出的结果是一致的
网友评论