零基础教程 | 我有一堆基因，如何预测TF-Gene调控网络？

作者: 生信石头 | 来源:发表于2024-01-01 16:49 被阅读0次

GENIE3||基因调控网络推断
番茄表达谱网站TomExpress
GENIE3预测基因调控网络
分子网络
转录因子靶基因互相预测全网最全，没有之一
寻找核心基因+子网络
GRNdb：单细胞水平的基因调控网络数据库
检测基因表达水平差异的方法有哪些？
KEGG是什么：快速了解KEGG
转录因子实验研究方法有哪些？

写在前面

早晨起来，想起来很久很久以前，有一个用户提出的优化想法，觉得确实也合理，就更新了一下。顺便也把相关插件使用详细捋捋，方便大伙搞清楚这些插件都拿来干啥。
早前，顺手写了两个插件：

Plant TF Motifs Shift：用于将拟南芥的 TF Binding Pattern 转移到目标物种蛋白上
Fimo Search: 基于输入的 Motifs 对目标区域进行扫描

那么可以做什么？简单来说，如果我得到一堆差异表达基因，我想知道其中哪些 TF 可能结合到另外一些基因的启动子区域；或者我有一个WGCNA分析得到的基因共表达网络，在这种情况下，如果有转录因子成员结合到另外成员的启动子区域，那么我们就有更大的把握他们存在调控和被调控关系的可能性不会太低。剩下的当然就是实验验证。为了完成这个分析，我们需要的步骤是：

拿到目标基因列表，这个大伙自然都有，甚至GWAS出来的一堆基因，当然差异表达基因集合或者共表达基因模块更常见；
拿到目标区域，一般是基因集合内成员的启动子区域，大概是ATG上游1000~2000bp，可以自定义
使用 Plant TF Motifs Shift 插件，以拟南芥为参考，获得可能得转录因子成员的Binding Motifs
使用 Fimo Search 插件，以得到的 Binding Motifs 对目标区域（如启动子区间）进行扫描，即可得到结果（事实上你要对整个基因组扫描，也不是不行）

下述逐步演示操作。为了完成这些操作，我们给出一个实例：

目标基因列表，一个苹果的基因共表达网络模块
苹果的基因组序列，注意是基因组，不是基因（为了提取启动子区域）
苹果的基因结构注释信息文件，GFF3/GTF格式（为了提取启动子区域）
苹果的蛋白序列全集（这个其实也可以基于 2 和 3 来准备）
TBtools

TBtools安装

Emmm.... 这个自己想办法。

插件安装

两个功能都是 TBtools 的插件，可以直接从插件商店安装。

具体就是打开 TBtools，打开插件商店，然后选中插件，Install 就可以了

Binding Motifs 获取

打开 Plant TF Binding Motif Shift 插件，设置苹果的蛋白序列全集，设置输出文件路径前缀，点击 Start 即可

等待即可（由于是几万个蛋白序列比对到几万个蛋白序列，如果是一般笔记本，BLAST的话，可能需要跑一整个晚上，但这个是值得的，因为一个物种一般就跑一次就好了。BLAST到底还是会比DIAMOND这类准确一些，在小细节上；当然后面确实有时间时，我会考虑支持 DIAMOND 对BLAST的替换）
完成后即可看到一系列数据，但其实只有两个是比较有用的。

输出中的两个文件，不带greedy的是非常可靠的 binding motifs，带 greedy 的是尽可能匹配的。
在不带greedy的 motifs 文件中，我们可以看到下述

代表映射质量分级，如果是 Excellent 那么结果都还是可以的。其他的有 Good Average Fine Poor 等。这些分级取决于物种蛋白和拟南芥蛋白序列库的互惠BLAST效果。如果正好苹果对应的 Excellent 的拟南芥蛋白没有 binding motifs 信息，那么就没有显示出来菠萝映射出来的 binding motifs。这个会比较奇怪，因为可能下一层级可以映射出来有 binding motifs。
于是参考用户的要求，我做了一点优化，输出 greedy.motifs 信息，尽可能对苹果每一个蛋白都加上一个映射的ID，确保他可以映射到有motifs的。文件效果如下