TBtools | 快速（以分钟计）且准确地获取家族进化分支成员

作者: 生信石头 | 来源:发表于2020-06-19 00:10 被阅读0次

TBtools | 快速（以分钟计）且准确地获取家族进化分支成员
TBtools基因家族分析详细教程(3)基因家族成员的进化分析1
TBtools基因家族分析详细教程(3)基因家族成员的进化分析2
Excel常用功能大全（含快捷键、函数、数据透视表以及其他常用功
Git 快速使用
为了成功，你愿意改变吗？——PhotoReading高速阅读
孩子学习语言3步走，掌握技巧不用愁
家族成员
基因家族分析（1）——基因家族成员的确定②
有个函数会“画图”！

写在前面

生物信息数据下游分析，是一个非常复杂，且几乎没有也不可能流程化的操作。究其原因，但凡贴近生物学问题，需要更多生物学视角，甚至是研究人员的直觉。而这，恰恰又是工作亮点挖掘，做出有意义工作的关键；甚至说实际一点，paper 发得好不好的关键。解决，是不可能解决的。但是加速，是存在可能的。TBtools 的相当部分功能，也正是其这个作用。简而言之，TBtools，打辅助。

需求的产生

在数据中，挖掘生物学故事的时候+，我们常常会拿一些已知基因更或者是已知通路为参考，大体可以分为两种操作：

组学视角：一般使用Gene Ontology，KEGG，Reactome，Mapman等，做做富集分析，于是得到结果。事实上这类分析确实有用，可以相对明确方向。但很多时候，对于非模式生物（人类，小鼠，拟南芥，水稻）等，注释就不准确，那么细究下去问题多多。
传统视角：举个栗子，课题是花芽分化，于是研读了近年来花芽分化相关的众多文献，其中陈雪梅教授课题组报道了拟南芥中发现ARF3对花分生组织的分化有决定性作用。回到我们的数据，在我们关注的材料中，是否是ARF3这个节点出了问题？

两种操作，各有千秋。不过，从某种角度来说，往往从传统视角出发，可以发现更多东西，毕竟这是比较solid地站在巨人的肩膀上。那么问题来了，ARF本身在植物的每个物种中都是基因家族，拟南芥在ARF3对应我们材料中，哪一个ARF？如何去确定？解决办法一般有三：

基因共线性分析，如果正好是在一个共线性区块上，那么证据最为充分。但是往往这一分析只能检测到一部分。而基因并不总是伴随大片段复制。
BLAST取最优，这是一个简单粗暴的想法，可以找到序列差异相对比较小的成员，但是无法保证找到统一同一分支的成员。原因较多。其一，BLAST，其中+L+字符对应的是局部比对。两个人的手长得很像，不代表其他地方，比如脚，身上，脸等等也向；其二，BLAST输出比对结果是符合阈值的结果，并不保证第一个就是全局最优，换句话说，局部最优仍然可以再发生（尤其是限制了比对时参数，而不是报告时参数）；其三，BLAST得到的是一个列表，单纯这个列表，我们如果取The+Best+Hit，那么不能保证ARF3在我们当前物种就真的只有一个，或许分支成员扩张了呢？如果我们取top3，我们又不能保证是否纳入了其他分支的成员，Sad !
最稳妥，最靠谱的是+鉴定当前物种整个 ARF 家族，然后跟拟南芥的 ARF 家族一起构建进化树，最后确定 ARF3 分支，然后拿到IDs。于是，在没有 TBtools 之前，你可能需要一两天（如果你熟悉一些命令行软件，如BLAST，Seqkit，MEME，Hmmer，当然最好你还有使用各式各样的可视化软件，如GSDSv2），当然最麻烦的是建树，基因成员太多，MEGA，raxML，FastTree，IQ-tree都救不了你；在+TBtools+出现之后+，你不再需要命令行，几乎所有功能都可以在其中完成，而且顺手，所以，时间会缩短到大半天（因为成员太多，那么建树，真的快不起来）。

解决办法

其实快速的解决办法还是有的。这几天，为了搞好学位论文，我刷了不少个papers，整理了与课题可能相关的通路（以及基因）。对着自己的数据，就需要做前述工作。鉴定了五个转录因子家族之后，不想再整了（Sad...真的挺麻烦）。可能搞分析的会提出，你怎么不用orthofinder之类的？还是不要来搞笑了。一是计算量和时间；二是精度。好吧，那咋办？我不想干了。那就只能突发奇想，......，既然又是生信大佬们都看不上的，那就我自己来。

手牵手，好基友

分析第一步，打开TBtools

功能说明如下

来个示例

其他的都设置完毕，填上一个ID接口，点击 Start，大概过了一分钟...（注意，如果按照鉴定家族 + 构建进化树，半天或者一两天是正常的，因为还有许多坑....）。结果出来了，直接右键复制就可以用了。连你自己想办法去截取分支，拿到ID，都帮你搞定了。

靠谱不靠谱啊？

Emmm，这是一个问题，我也不知道。不过我有不是没有参考答案。在这个工具写出来之前，我鉴定了这个家族成员R2R2MYB，同时把100来个序列和拟南芥的100来个R2R3MYB一起建了颗ML树。结果如下：

缩小到目标范围，

结果一致。
那么是不是结果总是一致？于是我又看了几个

也看了一些比较特别的，反正就一两分钟的事情

Emmm，也很好。

出问题了？

不对啊，怎么会跟预期不符合啊。Emmm....

按理说应该是出一个大分支，不应该是冒出一个序列。于是我查了一下 LITCHI023822.m1，结果发现....木有在我鉴定出来的R2R3MYB基因列表。于是，对这个序列做一顿查看

pfam，不好意思，只有一个 MYB domain，不是R2R3...
SMART，不对啊，有两个 MYB domain，就是 R2R3
NCBI CDD Search

OK，Confirmed ! 也就是说，我。。。鉴定 R2R3MYB的时候，漏掉了。Sad，因为，我只看了Pfam，而Pfam，不够优秀，敏感度决定了他只挖掘到一个domain。所以，基于domain的筛选，其实不要搞太早，不然反而会过滤掉正确的结果。当然，如果我还结合 MEME 的结果，应该就不会漏吧。

但是，话说回来，我现在有了“FindBestHomology”这个功能，还搞家族鉴定干啥？新功能，确实可以，更灵敏，更靠谱！ ，又快又好，真香！

写在最后

前天晚上鼓捣了下思路，搞了功能；昨天早上8点出门前开始写了点推文；晚上23点左右回来继续整理下，现在是24点04分。时间过得真快。之所以写了一个来小时，因为网页崩溃了，推文历史记录差点找不回来。最后我是通过URL反转义回来，然后再手动调整。或许，如果没找回来，这个推文也就不会出来了。
很久没有增加新功能了，主要还是我课题上没有太多新的迫切的需求。
PS：早前提过，TBtools论文没有被接收之前，不做更新；前几天更新了，于是多少大家猜到了目前情况；前前后后十来人问要新的 doi号，大体是预印本大家还是不太认可或者加引用不方便... 不过，确实暂时木有新doi，继续bioRxiv吧。新的doi出来了，自然公告一下。谢谢各位支持了。