HMMER是一个软件包,提供了一类被称为轮廓隐马尔可夫模型(此处中文名为直译,英文原称为 profile hidden Markov models, profile HMMs 或 profiles)的工具,这些工具用于制作蛋白质和DNA序列域家族概率模型,以及可以使用这些工具来注释新的序列。不同于 Blast 等工具,HMMER 使用的是集成算法(ensemble algorithms),而不是最佳对齐 (optimal alignment)。进一步来说,HMMER 使用的是基于隐马尔可夫模型的一种算法。
轮廓隐马尔可夫模型的最初是通过计算密集型的算法来实现的,包括之前的 HMMER1(1995)和 HMMER2(1998)这两个版本,但最新的 HMMER3 版本通常比 BLASTP 或 FASTA 搜索的更快,即使它使用的模型比二者更复杂。HMMER 可用于进行灵敏的同源搜索、蛋白结构域的自动注释、深度多重比较数据集的管理等领域。此外 HMMER 3 不仅仅适用于多个比对,也适用于单序列比较。两两序列比较只是轮廓隐马尔可夫模型的一个特例。HMMER 可以使用 BLOSUM 替换矩阵来参数化仅从一个序列构建的序列谱隐马尔可夫模型。HMMER3 包含两个用于使用单个查询序列搜索蛋白质数据库的程序:phmmer 和 jackhmmer。研究人员相信 phmmer 在很多方面都优于 BLASTP,而 jackhmmer 在很多方面也优于 PSI-BLAST。
当然,任何方法都不可能是完美无缺的。HMMER 的算法没有考虑不同个体对象间的更高一级的相互作用,因此不适合应用于存在相互作用的模型分析(如:碱基和碱基之间的相互作用,会使一些 RNA 形成特殊结构,对于这些结构 RNA(此处为直译,英文原称:structural RNAs)的分析,HMMER 工具便不再适用了)。此外,HMMER 的算法也缺乏系统发育的相关模型,因此不适合用于进化树的构建。
这里记录Windows下HMMER软件中hmmsearch的使用。
安装
Windows下访问 http://eddylab.org/software/hmmer3/3.0/hmmer-3.0-windows.zip
下载压缩包,解压缩后可使用cmd切换到HMMER软件所在目录运行。
hmmsearch基本用法
1.登录https://pfam-legacy.xfam.org/,按照下图步骤搜索基因hmm模型;
2.下载hmm模型;
下载hmm模型
hmm模型
3.进行hmmsearch,这里可以将hmm模型文件和protein序列文件放在HMM软件所在文件夹中,运行
hmmsearch p450.hmm GWHASIV00000000.Protein.fa > P450s_Tieguanyin_hmmsearch.out
简单解释下:hmmsearch:使用hmm模型搜索;p450.hmm:刚才下载的模型文件;GWHASIV00000000.Protein.fa:目标蛋白序列文件;P450s_Tieguanyin_hmmsearch.out为输出结果文件,可以自行命名,以.out结尾。
这里可能会出现报错:
Error: Unrecognized format, trying to open hmm file p450.hmm for reading.
这是因为版本升级了,从pfam下载的旧的HMMER程序不兼容新格式。解决办法也很简单:打开pfam下载的hmm文件,将第一行改为HMMER3/b [3.0 | March 2010]。再次运行即可。
4.运行结束后,即可得到输出文件。左边三列是全序列比对结果(按score从高到低排序),红框中的三列是hmm模型结构域最佳匹配结果(按score从高到低排序)。
这里主要以红色框中的搜索结果为准。e-value一般以10-6为阈值,筛选满足阈值的结果。
网友评论