想用这个软件,先学习一下它的文章。PGA:一个快速、准确、灵活批量注释质体的软件。
必要性
二代高通量测序,使得质体基因组研究激增,因此急需相应的批量注释软件。
它的作用原理?
PGA是一个用perl语言编写的命令行工具,Windows、Linux、Mac上都可以运行。它使用参考质体作为查询对象,需要注释的目标质体作为主体来进行基因定位,我们称之为反向query-subject BLAST搜索方法。PGA能准确识别基因和内含子的边界以及内含子丢失。该程序输出genbank格式的文件和日志文件,以帮助用户验证注释。
使用的注意事项?
具体使用的步骤其他文章有详细说明。
1 选择参考质体基因组很重要。用户应该仔细检查genbank格式的参考质体。PGA软件里打包了几个比较合理注释的质体,因此用户可以使用PGA重新注释一个拟用作参考的质体,以纠正可能的错误。
2 还是关于参考质体的。对于目标类群,用户选择一个包含足够数量注释基因的参考质体是很重要的。参考质体中的基因数量应该等于或超过目标质体中的基因数量。如果目标类群中的基因数量不确定,最好使用多个参考质体。PGA软件中自带的参考:无油樟Amborella trichopoda( AJ506156)和鳞秕泽米Zamia furfuracea(JX416857)是在目前已知的被子植物和裸子植物中基因数量最多的质体,因此建议在PGA运行过程中将它们作为参考。
3 作者不推荐使用一个完整的参考质体来注释非常不完整的目标质体,因为BLAST可能会多注释一些基因(例如,BLAST可能会返回未测序的基因或在不完整的质体中缺失的基因,从而导致虚假注释)。如果注释这种高度不完整的质体或质体段,推荐使用Mauve 2.4.0中的progressiveeMauve将不完整的质体与参考质体比对,然后再使用参照质体相对应的同源区域作为PGA注释的参考。
4 建议用户仔细检查高度变异或其他不寻常的目标质体,以便检查不正确的注释。这对于具有大量基因丢失、假基因或序列差异大的质体尤为重要。
与其他比同类型软件比的优缺点?
与其他可用的质体体注释工具进行比较表明,PGA注释的准确性很高,很少或不需要注释后验证。
1、 现有的网站在线注释:DOGMA、CpGAVAS、Verdant、GeSeq(这个用的比较多)
2、 命令行工具注释:Plann
但是,以上,都应该手动检查其基因注释结果,而且可能不准确的基因注释并不总是被标记上,从而检查时容易被忽略。因此,使用这些工具批量注释质体可能仍然是一项耗时的任务。文章中的说明表,一目了然:
图片.png
然后文章专门拿GeSeq与PGA进行实际运行了20种裸子植物和20种被子植物的结果来比较。
网友评论