插件 | 地表最强 Hmmer Search 界面工具

作者: 生信石头 | 来源:发表于2021-03-16 23:48 被阅读0次

插件 | 地表最强 Hmmer Search 界面工具
使用hmmscan搜索蛋白序列的结构域
地表最强
【地表最强】
【地表最强】
最强地表
ELK之ElasticSearch 6.X安全认证Search
QGIS学习笔记（006）
phpstorm插件thinkphp5
HMMER3.1软件使用

写在前面

从某个物种中鉴定某个家族的全部成员，一般有两种操作：

基于Domain，用hmmsearch等软件
基于序列相似性，用BLAST等软件

事实上，我个人是推荐第二种，尤其是目前绝大多数物种的基因结构注释存在问题。使用第一种，遗漏的几率更大，比如正好保守结构域区段没有被注释出来。当然，使用第二种，则有一定可能引入假阳性。当然了，后者完全可以通过进一步多类证据整合查看。这也就是可视化存在的意义（TBtools 的三图合一）。
然而，第一种确实是很快，也一直被更多人推崇。我也并不反对。所以，很久以前，在 TBtools 中放了一个功能。

具体可以参考推文《使用HMM进行基因家族鉴定？无人不能》。两年后，再来看实现逻辑，Ugly!
于是，我一边带娃，一边写了今天这个插件（其实是委托运营团队的 Feature Request）。

写完这个插件，我个人还是比较满意。毕竟从某个角度来说，TBtools又少了一些被人吐槽的点（尽管我还是不明白，不就HMM，有啥好吐槽的），也多了一个极度友好的功能！

使用极其简单

正如上图，用户只需要关心：

输入文件 - 查询信息和序列库
输出文件

对于输入文件一，支持三类，且自动识别：

PFAM ID，如 WRKY 结构域为 PF03106，MYB 结构域为PF00249，这些可以直接在 PFAM 数据库上找到，更或者在一些文献中会注明。
多序列比对结果，如果果胶甲基酯酶 PME 家族，这类结构蛋白，常常不像转录因子，不一定有保守结构域在PFAM上。可以自己拿不同物种已知的PME蛋白序列，用TBtools 的MUSCLE Wrapper或者其他多序列比对软件，得到的比对结果（无需注意比对结果格式，兼容几乎所有多序列比对格式，如Fasta，Clustal，PAML等），直接用作输入。
HMM库，比如整个Pfam_A.hmm数据库，当然也可能是某几个感兴趣的保守结构域的HMM。

而对于输入文件二，简单，反正就是一个蛋白序列库，下文我们直接使用香蕉所有蛋白序列集合。
至于输出文件...给个路径就行了。
下面，用三个使用实例来介绍具体使用方法。

实例一 - 直接使用 PFAM ID 列表

前述提到，转录因子WRKY和MYB家族的Pfam IDs分别为 PF03106 和 PF00249。这些可以直接在Pfam数据库查到

使用这两个Pfam ID，我们就可以直接筛选出所有香蕉可能的WRKY和MYB家族成员。使用方法如下

非常快

点击确定，即可直接跳转到输出文件

一般 TBtools 用户只需要看 XLS，打开就知道了

堪称完美！这个格式，可以直接用于结构域可视化。毕竟是 TBtools 用不，应该知道怎么获取对应序列的序列长度，然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可视化。
我鼓捣鼓捣，大概是这样一张图

实例二 - 直接使用多序列比对结果

正如前面提到的，有一些家族并没有保守的 Pfam IDs，我们可以直接使用一些已知家族成员蛋白序列（即使他们来自于不同物种），做一个多序列比对之后，用于输入。

下载完了就用MUSCLE比对

如果你没听我的劝告，点击“Directly Viz...”，那么会看到

或许这里面就有保守结果域吧，肉眼看看比对效果也挺好的。
保险起见，还是直接比对输出 clutalw 格式（试了下，似乎TBtools Fasta2Clutal在特殊字符下会失效）

OK，继续

自动弹出结果....

Emmm，似乎数目有点多。对比了下HMM的结果和香蕉基因组注释的结果

当然我们有理由相信，假阳性没那么高（HMM得到的多了46个，得详细看看了），尽管存在。多少估计还是要精细看看，不过偏离主题了。

实例三 - 使用已有的HMM库，如Pfam_A.hmm

有些时候，用户会自己下载一些.hmm库，或者从其他什么地方拿到。比如实例一中，用户也可以自己下载WRKY结构域的.hmm和MYB的.hmm文件，合并之后用这种方式来输入。这个模式的开放，其实对我来说，估计还是直接上Pfam_A.hmm全库。比如我鉴定了某个家族，香蕉的某某家族。这里我们就用香蕉基因组注释的PME蛋白序列，大概也就75个基因。我们看看注释得如何，都有什么结构域。
于是可以直接下载Pfam_A.hmm全库，跑上

Emmm，大概也就一两分钟。

也可以做个可视化

写在后面

Emmm，整完了。又是一个插件。作为委托团队的Feature Request。这个插件纳入众筹系列（未定价）。先想想再说~~ 感兴趣的朋友，可看看这两天插件商店的更新。对插件商店不了解的，建议看看推文《Plugin | 高速版插件商店！我又有一个绝妙的 idea》。
是谁？说 TBtools 不好用了~