构建功能基因隐马可夫模型HMM

作者: 赵会成 | 来源:发表于2019-03-06 22:55 被阅读63次

遇到的问题：fungene上的氮循环基因narG.hmm数据太老

http://fungene.cme.msu.edu/

如图共5条序列，一致的长度1227

如何自己建一个narG隐马可夫模型呢？pfam数据库

http://pfam.xfam.org/

点击KEYWORD SEARCH, 输入narG

点击PF02665，点Alignments，Format an alignment, 注意格式选择stockholm, generate,

准备工作完成

hmmer下载与安装

http://www.hmmer.org/documentation.html

Easiest way to install HMMER

% brew install hmmer # OS/X, HomeBrew

% port install hmmer # OS/X, MacPorts

% apt install hmmer # Linux (Ubuntu, Debian...)

% dnf install hmmer # Linux (Fedora)

% yum install hmmer # Linux (older Fedora)

% conda install -c bioconda hmmer # Anaconda

Alternatively, briefly, to obtain and compile from source:

% wget http://eddylab.org/software/hmmer/hmmer.tar.gz

% tar zxf hmmer.tar.gz

% cd hmmer-3.2.1

% ./configure --prefix /your/install/path

% make

% make check

% make install

% (cd easel; make install)

使用hmmbuild构建HMM模型，输入为Stockholm格式或者FASTA格式的多重比对序列文件

命令如下：

hmmbuild globins4.hmm tutorial/globins4.sto

globins4.hmm为输出的HMM模型

大功告成

华丽丽的分割线

pfam上缺少一些蛋白的序列，解决办法，从genebank上下载回来，因为涉及不到大量下载，选择手动自行挑选全长蛋白序列下载

贴一个链接备用，（批量下载的PYTHON 脚本）

http://blog.sina.com.cn/s/blog_9c28d4370102xcrj.html

genebank 上选择蛋白库，搜索对应的蛋白名称，检索

选择细菌、古菌，页面末端，点击send to ，选择FASTA格式，Create ID，下载速度很快

现在完了，去掉header信息中包含 "partial", "uncultured","Candiadtus","Fragment", "candidate"，"Candidatus"的序列，并且根据长度分布情况去掉较短或较长的序列

代码能力强的可以自行解决，我写的太臭，就不展示了

mafft 多序列比对，使用默认参数

mafft filterd.fa >aligned.fasta

HMMER创建HMM模型

hmmbuild globins4.hmm aligned.fasta

构建功能基因隐马可夫模型HMM

hmmer下载与安装

大功告成

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信相关

生信

step by step基因家族分析

基因家族分析

说不定有用（补充）

rna_seq