美文网首页生信小白白生物信息学
插件 | 地表最强 Hmmer Search 界面工具

插件 | 地表最强 Hmmer Search 界面工具

作者: 生信石头 | 来源:发表于2021-03-16 23:48 被阅读0次

    写在前面

    从某个物种中鉴定某个家族的全部成员,一般有两种操作:

    1. 基于Domain,用hmmsearch等软件
    2. 基于序列相似性,用BLAST等软件

    事实上,我个人是推荐第二种,尤其是目前绝大多数物种的基因结构注释存在问题。使用第一种,遗漏的几率更大,比如正好保守结构域区段没有被注释出来。当然,使用第二种,则有一定可能引入假阳性。当然了,后者完全可以通过进一步多类证据整合查看。这也就是可视化存在的意义(TBtools 的三图合一)。
    然而,第一种确实是很快,也一直被更多人推崇。我也并不反对。所以,很久以前,在 TBtools 中放了一个功能。


    具体可以参考推文《使用HMM进行基因家族鉴定?无人不能》。两年后,再来看实现逻辑,Ugly!
    于是,我一边带娃,一边写了今天这个插件(其实是委托运营团队的 Feature Request)。

    写完这个插件,我个人还是比较满意。毕竟从某个角度来说,TBtools又少了一些被人吐槽的点(尽管我还是不明白,不就HMM,有啥好吐槽的),也多了一个极度友好的功能!

    使用极其简单

    正如上图,用户只需要关心:

    1. 输入文件 - 查询信息 和 序列库
    2. 输出文件

    对于输入文件一,支持三类,且自动识别:

    1. PFAM ID,如 WRKY 结构域为 PF03106,MYB 结构域为PF00249,这些可以直接在 PFAM 数据库上找到,更或者在一些文献中会注明。
    2. 多序列比对结果,如果果胶甲基酯酶 PME 家族,这类结构蛋白,常常不像转录因子,不一定有保守结构域在PFAM上。可以自己拿不同物种已知的PME蛋白序列,用TBtools 的MUSCLE Wrapper或者其他多序列比对软件,得到的比对结果(无需注意比对结果格式,兼容几乎所有多序列比对格式,如Fasta,Clustal,PAML等),直接用作输入。
    3. HMM库,比如整个Pfam_A.hmm数据库,当然也可能是某几个感兴趣的保守结构域的HMM。

    而对于输入文件二,简单,反正就是一个蛋白序列库,下文我们直接使用香蕉所有蛋白序列集合。
    至于输出文件...给个路径就行了。
    下面,用三个使用实例来介绍具体使用方法。

    实例一 - 直接使用 PFAM ID 列表

    前述提到,转录因子WRKY和MYB家族的Pfam IDs分别为 PF03106 和 PF00249。这些可以直接在Pfam数据库查到



    使用这两个Pfam ID,我们就可以直接筛选出所有香蕉可能的WRKY和MYB家族成员。使用方法如下



    非常快

    点击确定,即可直接跳转到输出文件



    一般 TBtools 用户只需要看 XLS,打开就知道了

    堪称完美!这个格式,可以直接用于结构域可视化。毕竟是 TBtools 用不,应该知道怎么获取对应序列的序列长度,然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可视化。
    我鼓捣鼓捣,大概是这样一张图

    实例二 - 直接使用多序列比对结果

    正如前面提到的,有一些家族并没有保守的 Pfam IDs,我们可以直接使用一些已知家族成员蛋白序列(即使他们来自于不同物种),做一个多序列比对之后,用于输入。



    下载完了就用MUSCLE比对




    如果你没听我的劝告,点击“Directly Viz...”,那么会看到

    或许这里面就有保守结果域吧,肉眼看看比对效果也挺好的。
    保险起见,还是直接比对输出 clutalw 格式(试了下,似乎TBtools Fasta2Clutal在特殊字符下会失效)



    OK,继续

    自动弹出结果....

    Emmm,似乎数目有点多。对比了下HMM的结果和香蕉基因组注释的结果

    当然我们有理由相信,假阳性没那么高(HMM得到的多了46个,得详细看看了),尽管存在。多少估计还是要精细看看,不过偏离主题了。

    实例三 - 使用已有的HMM库,如Pfam_A.hmm

    有些时候,用户会自己下载一些.hmm库,或者从其他什么地方拿到。比如实例一中,用户也可以自己下载WRKY结构域的.hmm和MYB的.hmm文件,合并之后用这种方式来输入。这个模式的开放,其实对我来说,估计还是直接上Pfam_A.hmm全库。比如我鉴定了某个家族,香蕉的某某家族。这里我们就用香蕉基因组注释的PME蛋白序列,大概也就75个基因。我们看看注释得如何,都有什么结构域。
    于是可以直接下载Pfam_A.hmm全库,跑上



    Emmm,大概也就一两分钟。



    也可以做个可视化

    写在后面

    Emmm,整完了。又是一个插件。作为委托团队的Feature Request。这个插件纳入众筹系列(未定价)。先想想再说~~ 感兴趣的朋友,可看看这两天插件商店的更新。对插件商店不了解的,建议看看推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。
    是谁?说 TBtools 不好用了~

    相关文章

      网友评论

        本文标题:插件 | 地表最强 Hmmer Search 界面工具

        本文链接:https://www.haomeiwen.com/subject/apcjcltx.html