接上文
AMPHORA pipeline流程图
随着基因组数据增加,系统发育分析越来越多的用到更多编码蛋白质的序列。文中作者建立了一个自动进行分析的工具,其工作流程如上图。它可以快速可靠的比对,编辑蛋白质序列。克服当前利用多蛋白进行系统发育分析的一些困难。下面看看大致的构建原理和特点(很多工具会用就行。但是如果有精力,了解一些构建原理,在结果有问题的时候,可以分析地更加全面。或者了解了这个工具的优缺点后,可以利用其他工具对数据进行分析,互为补充,毕竟没有工具是十全十美的)。
Protein phylogenetic marker database
蛋白系统发育标记数据库
AMPHORA的核心是一个包含完整的修饰后(trimming masks)蛋白序列比对和隐马尔可夫(HMM)模型的蛋白系统发育标记数据库。
具有代表性的细菌完整基因组中的31个蛋白质编码基因(dnaG, frr, infC, nusA, pgk, pyrG, rplA, rplB, rplC, rplD, rplE, rplF, rplK, rplL, rplM, rplN, rplP, rplS, rplT, rpmA, rpoB, rpsB, rpsC, rpsE, rpsI, rpsJ, rpsK, rpsM, rpsS, smpB, and tsf)用CLUSTALW进行比对,之后手动检查并添加trimming masks。
之所以选择这31个基因,是因为它们普遍分布在细菌中,且绝大多数以单拷贝形式存在于每个基因组中。它们是参与复制,转录和翻译,或中枢代谢的管家基因,较难发生侧向基因转移。
High quality and highly reproducible sequence alignments
高质量序列比对
对于多序列比对的每个单列,分子系统发育分析假定有共同的祖先或序列有同源性。当违反此假设时,系统发育信号可能会被噪声掩盖。
研究表明,对齐质量对建树的影响,远比建树方法的影响更大。因此,准备高质量的序列比对是任何分子系统发育分析中最关键的部分,通常涉及手动编辑和修整(trimming)生成的比对结果,是自动化的最大挑战。基于每列中的gap数或每列conservation score的自动化trimming可用于筛选保守的模块,但对于高质量的建树仍然不够。
作者利用基于HMM的多重序列比对的特点克服了这个问题。当使用HMM进行序列比对时,新序列可以逐个残基地映射回HMM源“种子”比对(“seed” alignment)。当“种子”比对包括精确的人为调整的mask时,新的比对可以自动修剪,无需进一步的人工干预。此外,HMM模型是此自动对齐和修整中的唯一变量。所以当使用相同的模型时,由此产生的比对是完全可再现的,比较来自不同研究人员的结果也具有意义。
Speed
分析速度
基于HMM的方法的另一个优势是速度。AMPHORA在普通电脑(Intel Pentium CPU 3.2 GHz)上比对340个rpoB的序列只需要0.5min。同条件下,CLUSTALW,MUSCLE(利用de novo pair-wise alignment)需要120min和12min。
PS. 更加具体的构建方法请阅读文献中的材料与方法部分。
参考文献
Wu, Martin, and Jonathan A. Eisen. "A simple, fast, and accurate method of phylogenomic inference." Genome biology 9.10 (2008): R151.
AMPHORA下载(我刚刚试了一下无法访问,一会再看看。。。)
http://bobcat.genomecenter.ucdavis.edu/AMPHORA
网友评论