HMMER3.1软件的使用
HMMER3.1官方下载地址:http://hmmer.org/download.html。
HMMER3.1使用手册:http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf
安装:
# 直接下载二进制包,根本就不需要进行安装,只要稍微设置一下PATH变量就可以使用了,非常方便。
# 在home目录下创建biosoft目录,一般的生物分析软件都在这里
mkdir biosoft && cd biosoft
# 二进制包解压
tar -zvf hmmer-3.1b2-linux-intel-x86_64.tar.gz
# 添加至环境变量
vim ~/.bashrc
export PATH=$PATH:~/biosoft/hmmer-3.1b2-linux-intel-x86_64/binaries
# 环境变量立即生效
source ~/.bashrc
使用说明:
HMMER软件最重要的就是四个二进制文件:hmmbuild/hmmsearch/hmmscan/hmmalign
基本使用:
1.hmmbuild构建HMM文件
根据提供的sto格式的序列比对软件构建HMM文件,sto格式文件相对于普通比对文件来看主要区别在于# STOCKHOLM 1.0开头和//结尾
hmmbuild +要输出的文件名(.hmm)+sto文件(相对路径)
hmmbuild R2R3.hmm R2R3.sto
解释一下其中的idx这一行,nseq表示一共四条序列,alen表示比对氨基酸一共171个,mlen表示最大比对上149个氨基酸,eff_nseq表示比对效率0.96存在22个gap,re/pos表示每个位置的相对熵0.589(这个就表示看不太懂)。
2.hmmsearch搜索序列数据库
hmmsearch可以识别的格式包括fasta,EMBL/UniProt文本格式和GENBANK格式
hmmsearch R2R3.hmm uniprot R2R3.fasta > R2R3.out
比对结果的说明:最后两列是对序列的说明和描述信息:
第一列的E-vaule是最终要的一个参数,越小越有可能是同源的序列
第二列的score也可以用来评估可能性,而且不依赖于比对数据库的大小,只依赖HMM文件和目标序列
第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是这个数值一般不重要,可以忽略不看。
后面的3列也是一样的参数,只是对于best 1 domain而言,前三列是对于full sequence而言。最后的#dom内容是有多少个domain,exp是均值,可以是小数,而N是真正的整数个数。
网友评论