安装时间:2021.2.4
1. 简介
多序列比对在生物信息分析中是常用到的操作,目前多序列比对的软件较多,没有一款十分完美的多序列比对工具。有文献报道:
- 在比对速度上(Muscle>MAFFT>ClustalW>T-Coffee)
- 在比对准确度上(MAFFT>Muscle>T-Coffee>ClustalW)
2. 多序列比对的目的
- 寻找同源序列
- 构建系统发育树
- 设计引物
- 寻找保守的结构域
输入文件的格式要求:
① 序列为fasta格式文件
② 序列的名称要唯一,不能有空格,且重要信息尽量放在前面
③ 序列名称不要出现中文、@、\等特殊字符
3.mafft
3.1 安装
conda install mafft
2.2 使用
情况一:序列小于200条,长度<2000aa/nt(最准确)
mafft --maxiterate 1000 --localpair input > output
情况二:序列小于200条,长度<2000aa/nt,序列长度相似
mafft --maxiterate 1000 --globalpair input > output
情况三:不清楚序列情况
mafft --auto input > output
4. muscle
4.1 安装
conda install muscle
4.2 使用
muscle -in file1 -out file2
5. 多序列比对编辑工具
5.1 SeaView
- 下载:wget http://doua.prabi.fr/software/seaview
- 解压缩后进入目录
./configure
make
make install
5.2 Jalview
- 下载
conda install jalview
5.3 trimAI
- 下载:https://github.com/scapella/trimal
- 解压缩后编译安装
- 常用于处理多序列比对文件
#移除列中间隙占比90%以上的列, 除非移除后剩余序列的长度小于60%
trimal -in <inputfile> -out <outputfile> -gt 0.9 -cons 60
#自动选择最佳的阈值来删除列
trimal -in <inputfile> -out <outputfile> -strictplus
网友评论