美文网首页
零基础教程 | 我有一堆基因,如何预测TF-Gene调控网络?

零基础教程 | 我有一堆基因,如何预测TF-Gene调控网络?

作者: 生信石头 | 来源:发表于2024-01-01 16:49 被阅读0次

写在前面

早晨起来,想起来很久很久以前,有一个用户提出的优化想法,觉得确实也合理,就更新了一下。顺便也把相关插件使用详细捋捋,方便大伙搞清楚这些插件都拿来干啥。
早前,顺手写了两个插件:

  1. Plant TF Motifs Shift:用于将拟南芥的 TF Binding Pattern 转移到目标物种蛋白上
  2. Fimo Search: 基于输入的 Motifs 对目标区域进行扫描

那么可以做什么?简单来说,如果我得到一堆差异表达基因,我想知道其中哪些 TF 可能结合到另外一些基因的启动子区域;或者我有一个WGCNA分析得到的基因共表达网络,在这种情况下,如果有转录因子成员结合到另外成员的启动子区域,那么我们就有更大的把握他们存在调控和被调控关系的可能性不会太低。剩下的当然就是实验验证。为了完成这个分析,我们需要的步骤是:

  1. 拿到目标基因列表,这个大伙自然都有,甚至GWAS出来的一堆基因,当然差异表达基因集合或者共表达基因模块更常见;
  2. 拿到目标区域,一般是基因集合内成员的启动子区域,大概是ATG上游1000~2000bp,可以自定义
  3. 使用 Plant TF Motifs Shift 插件,以拟南芥为参考,获得可能得转录因子成员的Binding Motifs
  4. 使用 Fimo Search 插件,以得到的 Binding Motifs 对目标区域(如启动子区间)进行扫描,即可得到结果(事实上你要对整个基因组扫描,也不是不行)

下述逐步演示操作。为了完成这些操作,我们给出一个实例:

  1. 目标基因列表,一个苹果的基因共表达网络模块
  2. 苹果的基因组序列,注意是基因组,不是基因(为了提取启动子区域)
  3. 苹果的基因结构注释信息文件,GFF3/GTF格式(为了提取启动子区域)
  4. 苹果的蛋白序列全集(这个其实也可以基于 2 和 3 来准备)
  5. TBtools

TBtools安装

Emmm.... 这个自己想办法。

插件安装

两个功能都是 TBtools 的插件,可以直接从插件商店安装。



具体就是打开 TBtools,打开插件商店,然后选中插件,Install 就可以了

Binding Motifs 获取

打开 Plant TF Binding Motif Shift 插件,设置苹果的蛋白序列全集,设置输出文件路径前缀,点击 Start 即可



等待即可(由于是几万个蛋白序列比对到几万个蛋白序列,如果是一般笔记本,BLAST的话,可能需要跑一整个晚上,但这个是值得的,因为一个物种一般就跑一次就好了。BLAST到底还是会比DIAMOND这类准确一些,在小细节上;当然后面确实有时间时,我会考虑支持 DIAMOND 对BLAST的替换)
完成后即可看到一系列数据,但其实只有两个是比较有用的。



输出中的两个文件,不带greedy的是非常可靠的 binding motifs,带 greedy 的是尽可能匹配的。
在不带greedy的 motifs 文件中,我们可以看到下述

代表映射质量分级,如果是 Excellent 那么结果都还是可以的。其他的有 Good Average Fine Poor 等。这些分级取决于物种蛋白和拟南芥蛋白序列库的互惠BLAST效果。如果正好苹果对应的 Excellent 的拟南芥蛋白没有 binding motifs 信息,那么就没有显示出来菠萝映射出来的 binding motifs。这个会比较奇怪,因为可能下一层级可以映射出来有 binding motifs。
于是参考用户的要求,我做了一点优化,输出 greedy.motifs 信息,尽可能对苹果每一个蛋白都加上一个映射的ID,确保他可以映射到有motifs的。文件效果如下



如此,我们就得到所有苹果的 TF binding motifs。
随后,我们可以直接得到目标基因集合的 TF binding motifs

使用 TBtools 的 Text Block Extract 功能就可以了。

获得目标基因集合的启动子区域序列

具体完全可以参考前述我写过的 GFF3 序列提取教程,在B站我也有放了一个专门的视频教程。大体如下,先提取所有转录本的启动子序列,然后再提取目标基因集合的启动子区域序列。



随后,提取目标基因集合的启动子区域序列


使用 Fimo 构建基因调控网络

使用上述文件,一切搞定



运行后很快就可以看到结果




可以看到 Alt ID 对应的似乎 TF,Sequence Name 对应的是启动子上有对应 TF binding motifs 的基因。

如此,我们就得到了大规模的基因调控关系文本预测结果。事实上,如果你再结合共表达,结果真的没话说。
PS:如果你用的是 greedy.motifs 文件,操作完全相同。

可视化你的网络

当然,可视化的话,可以直接用 cytoscape 就可以了。
先在 Excel 之类的程序做一下格式化,去掉或者增加一个 Flag,是的 Alt ID 的格式 和 Suquence Name 的格式一致,方便分析相互调控关系



我用 Excel 打开 fimo.tsv 并格式化为如下:



随后打开 cytoscpe 可视化

风格化,NetworkAnalysis,简单优化,Outdegree得到如下

可以看到,虽然我们有很多几百个基因的模块,但从 TF Binding Motifs 分析来看,只有少数可能是非常关键的 hub genes。
我们可以过滤一下质量。


写在最后

到底,数据就数据,做做处理,或许就是有用的信息。

相关文章

  • GENIE3||基因调控网络推断

    GENIE3是一种从基因表达数据推断基因调控网络的方法。它训练预测数据集中每个基因表达的随机森林模型,并将转录因子...

  • 番茄表达谱网站TomExpress

    这个网站也是无意中发现的,有一次在做一个预测基因网络调控,想要计算基因之间的相关系数。看文献是用基因共表达数据来计...

  • GENIE3预测基因调控网络

    前言 今天来讨论下利用Tree-Based的方法来建立基因之间的调控关系,最近看到一篇17年发表在Nature M...

  • 分子网络

    分子网络包含3种,分别是 基因调控网络(有向)基因共表达网络:节点表示gene,边表示相关性PPI网络:无向,节点...

  • 转录因子靶基因互相预测全网最全,没有之一

    转录因子靶基因互相预测全网最全,没有之一 还记得先前提到的基因转录调控数据库“转录因子靶基因预测,不用到处搜了,都...

  • 寻找核心基因+子网络

    一般做完差异基因,或者使用其他方法找到想要的biomarker时,想要知道这些基因的调控网络,或者哪些基因在调控网...

  • GRNdb:单细胞水平的基因调控网络数据库

    转录因子及其下游靶基因形成的基因调控网络( Gene Regulatory Network, GRN)在基因表达调...

  • 检测基因表达水平差异的方法有哪些?

    基因的表达是dna-rna-蛋白,期间有转录水平调控、转录后调控、翻译后调控等多种调控机制影响该基因的表达. 所以...

  • KEGG是什么:快速了解KEGG

    我们有时候很关心基因所在的pathway、上下调控以及一堆基因富集到的pathway,再或者同源基因等信息,KEG...

  • 转录因子实验研究方法有哪些?

    1.什么是转录因子 转录因子(Transcription factor,TF)的调控决定着基因的调控网络以及表达水...

网友评论

      本文标题:零基础教程 | 我有一堆基因,如何预测TF-Gene调控网络?

      本文链接:https://www.haomeiwen.com/subject/uscundtx.html