在进行序列分析时,难免要做一张序列两两比较的同一性(大致和相似性差不多)表,比如下面这样的:
Li Jin-Yan et al. Microbes and Infection. 2020单一核苷酸或者氨基酸序列同一性表比较好办,可以通过Geneious (付费软件)或者BioEdit来完成。但是,对于编码基因,大多数情况下(或有时)我们需要联合核苷酸和氨基酸的同一性来一起展示。
如下面这样:
Zhou Peng et al. Nature. 2020在BioAider出现之前,以前我是通过BioEdit这款软件计算序列同一性。不过它有一个很大的局限,就是上面那种核苷酸+氨基酸同一性矩阵表,它不能一步生成,得先分别计算好核苷酸或者氨基酸同一性表,再手动(不懂编程的)或者通过脚本(懂编程的)进行合并。
新出的生信小软件BioAider可以很好地解决这点。
先附上软件下载地址:https://github.com/ZhijianZhou01/BioAider/releases
目前最新版为1.03打开BioAider V1.03后,进入菜单栏,选择Similar Analysis >- Sequence Identity Matrix,如下:
输入序列要求是已经基于密码子方式比对好的拖拽或者通过按钮导入已经基于密码子方式比对好的序列文件,然后选择“Combination nt and aa”。因为示例数据是冠状病毒,所以我们选择标准密码子表进行翻译,再点击运行按钮即可。
运行很快,输出结果在软件的“Result”文本框(用来预览)和输入文件所在的目录(*.csv表格文件)下。
打开*.csv表格文件如下:
仅仅显示一部分/的前面是核苷酸同一性值(%),后面是氨基酸同一性值(%)。
分析结果快速准确,表格稍微整理下可直接用于文章发表。不仅如此,针对编码区基因的核苷酸序列计算同一性,BioAider还提供了压缩gap功能(Condense gap),当然,这是一个可选项。如果勾选了这个选项,BioAider会将对齐序列中每3个连续插入或删除(gap)的碱基视为一个,再计算成对序列同一性,生物学背景的同学可以稍微思考下就能想通这么做的理由。
PS:如果只是生成单一的核苷酸或氨基酸序列同一性矩阵表,输入序列不要求基于密码子的方式对齐,然后选择“Single nt or aa”单选按钮,同样运行即可。
网友评论