基因家族鉴定---hmmer

作者: MLD_TRNA | 来源:发表于2021-03-24 15:53 被阅读0次

策略

hmmsearch + blast

单独使用或者组合使用

hmmsearch可以做两次,第一次使用pfam中的多序列比对结果构建模型进行搜索,筛选过结构域后,使用本物种的该基因家族的多序列比对结果再次构建模型,进行搜索。

blast常用模式物种

准备数据

研究物种的基因组文件:包括Genome.fasta、xxx.gff、protein.fasta

近源种的基因家族蛋白序列 protein.fasta

从Pfam库下载hidden Markov model (HMM) profile

http://pfam.xfam.org/

主页输入PF号;跳转后的页面选择Alignments条目;format选择stockholm格式;点击generate,会下载一个txt文件

如CYP:PF00067

步骤

激活环境,前面会显示环境名称

conda activate protein

构建模型

hmmbuild pf00067.hmm PF00067_seed.txt

搜索

hmmsearch pf00067.hmm protein.fasta>out.fa

输出文件的解读见《hmmer使用手册》

得到候选集

筛选参考bitacora篇

https://www.jianshu.com/writer#/notebooks/47211707/notes/85546375

是否有必要二轮hmm搜索

筛选完毕的蛋白序列集,可以通过mega进行clustalX进行比对,然后在clustalX软件中保存为CLUSTAL 格式,文件名默认为xxx.aln。

接着用过在线序列格式转换工具

http://sequenceconversion.bugaco.com/converter/biology/sequences/clustal_to_fasta.php

将clustal更改为stockholm格式,重新进行hmm搜索

删选结果之后,两次结果取并集。

相关文章

网友评论

    本文标题:基因家族鉴定---hmmer

    本文链接:https://www.haomeiwen.com/subject/rgrhhltx.html