写在前面
从某个物种中鉴定某个家族的全部成员,一般有两种操作:
- 基于Domain,用
hmmsearch
等软件 - 基于序列相似性,用
BLAST
等软件
事实上,我个人是推荐第二种,尤其是目前绝大多数物种的基因结构注释存在问题。使用第一种,遗漏的几率更大,比如正好保守结构域区段没有被注释出来。当然,使用第二种,则有一定可能引入假阳性。当然了,后者完全可以通过进一步多类证据整合查看。这也就是可视化存在的意义(TBtools 的三图合一)。
然而,第一种确实是很快,也一直被更多人推崇。我也并不反对。所以,很久以前,在 TBtools 中放了一个功能。
具体可以参考推文《使用HMM进行基因家族鉴定?无人不能》。两年后,再来看实现逻辑,
Ugly!
于是,我一边带娃,一边写了今天这个插件(其实是委托运营团队的
Feature Request
)。
写完这个插件,我个人还是比较满意。毕竟从某个角度来说,TBtools
又少了一些被人吐槽的点(尽管我还是不明白,不就HMM
,有啥好吐槽的),也多了一个极度友好的功能!
使用极其简单
正如上图,用户只需要关心:
- 输入文件 - 查询信息 和 序列库
- 输出文件
对于输入文件一,支持三类,且自动识别:
- PFAM ID,如 WRKY 结构域为
PF03106
,MYB 结构域为PF00249
,这些可以直接在 PFAM 数据库上找到,更或者在一些文献中会注明。 - 多序列比对结果,如果果胶甲基酯酶 PME 家族,这类结构蛋白,常常不像转录因子,不一定有保守结构域在PFAM上。可以自己拿不同物种已知的PME蛋白序列,用TBtools 的MUSCLE Wrapper或者其他多序列比对软件,得到的比对结果(无需注意比对结果格式,兼容几乎所有多序列比对格式,如Fasta,Clustal,PAML等),直接用作输入。
- HMM库,比如整个Pfam_A.hmm数据库,当然也可能是某几个感兴趣的保守结构域的HMM。
而对于输入文件二,简单,反正就是一个蛋白序列库,下文我们直接使用香蕉所有蛋白序列集合。
至于输出文件...给个路径就行了。
下面,用三个使用实例来介绍具体使用方法。
实例一 - 直接使用 PFAM ID 列表
前述提到,转录因子WRKY和MYB家族的Pfam IDs分别为 PF03106 和 PF00249。这些可以直接在Pfam数据库查到
使用这两个Pfam ID,我们就可以直接筛选出所有香蕉可能的WRKY和MYB家族成员。使用方法如下
非常快
点击确定,即可直接跳转到输出文件
一般 TBtools 用户只需要看 XLS,打开就知道了
堪称完美!这个格式,可以直接用于结构域可视化。毕竟是 TBtools 用不,应该知道怎么获取对应序列的序列长度,然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可视化。
我鼓捣鼓捣,大概是这样一张图
实例二 - 直接使用多序列比对结果
正如前面提到的,有一些家族并没有保守的 Pfam IDs,我们可以直接使用一些已知家族成员蛋白序列(即使他们来自于不同物种),做一个多序列比对之后,用于输入。
下载完了就用MUSCLE比对
如果你没听我的劝告,点击“Directly Viz...”,那么会看到
或许这里面就有保守结果域吧,肉眼看看比对效果也挺好的。
保险起见,还是直接比对输出 clutalw 格式(试了下,似乎TBtools Fasta2Clutal在特殊字符下会失效)
OK,继续
自动弹出结果....
Emmm,似乎数目有点多。对比了下HMM的结果和香蕉基因组注释的结果
当然我们有理由相信,假阳性没那么高(HMM得到的多了46个,得详细看看了),尽管存在。多少估计还是要精细看看,不过偏离主题了。
实例三 - 使用已有的HMM库,如Pfam_A.hmm
有些时候,用户会自己下载一些.hmm库,或者从其他什么地方拿到。比如实例一中,用户也可以自己下载WRKY结构域的.hmm和MYB的.hmm文件,合并之后用这种方式来输入。这个模式的开放,其实对我来说,估计还是直接上Pfam_A.hmm全库。比如我鉴定了某个家族,香蕉的某某家族。这里我们就用香蕉基因组注释的PME蛋白序列,大概也就75个基因。我们看看注释得如何,都有什么结构域。
于是可以直接下载Pfam_A.hmm全库,跑上
Emmm,大概也就一两分钟。
也可以做个可视化
写在后面
Emmm,整完了。又是一个插件。作为委托团队的Feature Request。这个插件纳入众筹系列(未定价)。先想想再说~~ 感兴趣的朋友,可看看这两天插件商店的更新。对插件商店不了解的,建议看看推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。
是谁?说 TBtools 不好用了~
网友评论