写在前面
早晨起来,想起来很久很久以前,有一个用户提出的优化想法,觉得确实也合理,就更新了一下。顺便也把相关插件使用详细捋捋,方便大伙搞清楚这些插件都拿来干啥。
早前,顺手写了两个插件:
- Plant TF Motifs Shift:用于将拟南芥的 TF Binding Pattern 转移到目标物种蛋白上
- Fimo Search: 基于输入的 Motifs 对目标区域进行扫描
那么可以做什么?简单来说,如果我得到一堆差异表达基因,我想知道其中哪些 TF 可能结合到另外一些基因的启动子区域;或者我有一个WGCNA分析得到的基因共表达网络,在这种情况下,如果有转录因子成员结合到另外成员的启动子区域,那么我们就有更大的把握他们存在调控和被调控关系的可能性不会太低。剩下的当然就是实验验证。为了完成这个分析,我们需要的步骤是:
- 拿到目标基因列表,这个大伙自然都有,甚至GWAS出来的一堆基因,当然差异表达基因集合或者共表达基因模块更常见;
- 拿到目标区域,一般是基因集合内成员的启动子区域,大概是ATG上游1000~2000bp,可以自定义
- 使用 Plant TF Motifs Shift 插件,以拟南芥为参考,获得可能得转录因子成员的Binding Motifs
- 使用 Fimo Search 插件,以得到的 Binding Motifs 对目标区域(如启动子区间)进行扫描,即可得到结果(事实上你要对整个基因组扫描,也不是不行)
![](https://img.haomeiwen.com/i10518391/1f44f30fe7791ce4.png)
下述逐步演示操作。为了完成这些操作,我们给出一个实例:
- 目标基因列表,一个苹果的基因共表达网络模块
- 苹果的基因组序列,注意是基因组,不是基因(为了提取启动子区域)
- 苹果的基因结构注释信息文件,GFF3/GTF格式(为了提取启动子区域)
- 苹果的蛋白序列全集(这个其实也可以基于 2 和 3 来准备)
- TBtools
TBtools安装
Emmm.... 这个自己想办法。
插件安装
两个功能都是 TBtools 的插件,可以直接从插件商店安装。
![](https://img.haomeiwen.com/i10518391/a67963b6f3701e00.png)
具体就是打开 TBtools,打开插件商店,然后选中插件,Install 就可以了
Binding Motifs 获取
打开 Plant TF Binding Motif Shift 插件,设置苹果的蛋白序列全集,设置输出文件路径前缀,点击 Start 即可
![](https://img.haomeiwen.com/i10518391/75457adb956c82de.png)
等待即可(由于是几万个蛋白序列比对到几万个蛋白序列,如果是一般笔记本,BLAST的话,可能需要跑一整个晚上,但这个是值得的,因为一个物种一般就跑一次就好了。BLAST到底还是会比DIAMOND这类准确一些,在小细节上;当然后面确实有时间时,我会考虑支持 DIAMOND 对BLAST的替换)
完成后即可看到一系列数据,但其实只有两个是比较有用的。
![](https://img.haomeiwen.com/i10518391/844798f2c67503ac.png)
输出中的两个文件,不带greedy的是非常可靠的 binding motifs,带 greedy 的是尽可能匹配的。
在不带greedy的 motifs 文件中,我们可以看到下述
![](https://img.haomeiwen.com/i10518391/d99d0122cc09460e.png)
代表映射质量分级,如果是 Excellent 那么结果都还是可以的。其他的有 Good Average Fine Poor 等。这些分级取决于物种蛋白和拟南芥蛋白序列库的互惠BLAST效果。如果正好苹果对应的 Excellent 的拟南芥蛋白没有 binding motifs 信息,那么就没有显示出来菠萝映射出来的 binding motifs。这个会比较奇怪,因为可能下一层级可以映射出来有 binding motifs。
于是参考用户的要求,我做了一点优化,输出 greedy.motifs 信息,尽可能对苹果每一个蛋白都加上一个映射的ID,确保他可以映射到有motifs的。文件效果如下
![](https://img.haomeiwen.com/i10518391/ab7838ff8b4827f2.png)
如此,我们就得到所有苹果的 TF binding motifs。
随后,我们可以直接得到目标基因集合的 TF binding motifs
![](https://img.haomeiwen.com/i10518391/c2e775ab0d854659.png)
使用 TBtools 的 Text Block Extract 功能就可以了。
获得目标基因集合的启动子区域序列
具体完全可以参考前述我写过的 GFF3 序列提取教程,在B站我也有放了一个专门的视频教程。大体如下,先提取所有转录本的启动子序列,然后再提取目标基因集合的启动子区域序列。
![](https://img.haomeiwen.com/i10518391/84e286a3d9198419.png)
随后,提取目标基因集合的启动子区域序列
![](https://img.haomeiwen.com/i10518391/d051928089cbb516.png)
使用 Fimo 构建基因调控网络
使用上述文件,一切搞定
![](https://img.haomeiwen.com/i10518391/5c8fd278ef529721.png)
运行后很快就可以看到结果
![](https://img.haomeiwen.com/i10518391/66b636c37030be93.png)
![](https://img.haomeiwen.com/i10518391/04d089f6e9c9c528.png)
可以看到 Alt ID 对应的似乎 TF,Sequence Name 对应的是启动子上有对应 TF binding motifs 的基因。
如此,我们就得到了大规模的基因调控关系文本预测结果。事实上,如果你再结合共表达,结果真的没话说。
PS:如果你用的是 greedy.motifs 文件,操作完全相同。
可视化你的网络
当然,可视化的话,可以直接用 cytoscape 就可以了。
先在 Excel 之类的程序做一下格式化,去掉或者增加一个 Flag,是的 Alt ID 的格式 和 Suquence Name 的格式一致,方便分析相互调控关系
![](https://img.haomeiwen.com/i10518391/912ced1d61847623.png)
我用 Excel 打开 fimo.tsv 并格式化为如下:
![](https://img.haomeiwen.com/i10518391/5c9dde7c37d372b0.png)
随后打开 cytoscpe 可视化
![](https://img.haomeiwen.com/i10518391/2f4301b92fba14a5.png)
风格化,NetworkAnalysis,简单优化,Outdegree得到如下
![](https://img.haomeiwen.com/i10518391/eff6f3e7a3621d7a.png)
可以看到,虽然我们有很多几百个基因的模块,但从 TF Binding Motifs 分析来看,只有少数可能是非常关键的 hub genes。
我们可以过滤一下质量。
![](https://img.haomeiwen.com/i10518391/1e28379142fd4cb1.png)
写在最后
到底,数据就数据,做做处理,或许就是有用的信息。
网友评论