策略
hmmsearch + blast
单独使用或者组合使用
hmmsearch可以做两次,第一次使用pfam中的多序列比对结果构建模型进行搜索,筛选过结构域后,使用本物种的该基因家族的多序列比对结果再次构建模型,进行搜索。
blast常用模式物种
准备数据
研究物种的基因组文件:包括Genome.fasta、xxx.gff、protein.fasta
近源种的基因家族蛋白序列 protein.fasta
从Pfam库下载hidden Markov model (HMM) profile
主页输入PF号;跳转后的页面选择Alignments条目;format选择stockholm格式;点击generate,会下载一个txt文件
如CYP:PF00067
步骤
激活环境,前面会显示环境名称
conda activate protein
构建模型
hmmbuild pf00067.hmm PF00067_seed.txt
搜索
hmmsearch pf00067.hmm protein.fasta>out.fa
输出文件的解读见《hmmer使用手册》
得到候选集
筛选参考bitacora篇
https://www.jianshu.com/writer#/notebooks/47211707/notes/85546375
是否有必要二轮hmm搜索
筛选完毕的蛋白序列集,可以通过mega进行clustalX进行比对,然后在clustalX软件中保存为CLUSTAL 格式,文件名默认为xxx.aln。
接着用过在线序列格式转换工具
http://sequenceconversion.bugaco.com/converter/biology/sequences/clustal_to_fasta.php
将clustal更改为stockholm格式,重新进行hmm搜索
删选结果之后,两次结果取并集。
网友评论