手里有一个细菌的基因组序列,如何分析和挖掘基因组信息对我是一个头疼的问题!!先依葫芦画瓢吧,看了一些文献,很多做比较基因组学分析,计算了多个基因组之间的平均核酸一致性average nucleotide identity(ANI)和氨基酸一致性amino acid identity(AAI)。
平均核酸一致性average nucleotide identity(ANI)的计算教程网上比较多,比如JSpecies的使用,今天主要分享一下氨基酸一致性amino acid identity(AAI)计算。CompareM is a software toolkit which supports performing large-scale comparative genomic analyses. It provides statistics across sets of genomes (e.g., amino acid identity) and for individual genomes (e.g., codon usage).
ubuntu 16 系统下操作
1.CompareM软件安装
依赖软件的安装
prodigal >= 2.6.2: Hyatt D, Locascio PF, Hauser LJ, Uberbacher EC. 2012. Gene and translation initiation site prediction in metagenomic sequences. Bioinformatics 28: 2223-2230.
diamond >= 0.9.0: Buchfink B, Xie C, Huson DH. 2015. Fast and sensitive protein alignment using DIAMOND. Nature Methods 12: 59–60 doi:10.1038/nmeth.3176.
需要SciPy Stack(numpy, scipy和 matplotlib),大多数Linux系统是自带的,如果没有前往http://www.scipy.org/install.html去安装。
comparem安装
> sudo pip install comparem
#comparem是基于python2的, 我的系统是python3,因此我用bioconda构建了一个python2的虚拟环境,在python2环境中使用comparem
> comparem aai_wf input_files output_dir
aai_summary.tsv文件中给出了基因组两两间的amino acid identity值。
网友评论