美文网首页ggplot集锦
零基础 | 基于转录因子结合 Motif 的基因间调控关系预测

零基础 | 基于转录因子结合 Motif 的基因间调控关系预测

作者: 生信石头 | 来源:发表于2023-07-12 22:52 被阅读0次

    写在前面

    很多时候,我们会得到一个基因集合:

    1. 通过GWAS定位到几个区间,每个区间有一堆基因,合并起来是一个集合;
    2. 通过RNAseq转录组数据分析,差异表达基因,有一个集合;
    3. 通过 WGCNA 共表达网络构建,会有一个个的基因集合......

    当然,还有很多很多基因集合,针对这些基因结合,目前常见的是两个分析:

    1. 直接基于蛋白相似度,使用 Stringdb 映射蛋白互作网络,这个在 TBtools 主程序的 PPI Predict 功能可以快速实现;
    2. 做基因集功能富集分析,这块无需解释,TBtools 主程序以及几个优秀的插件都能处理。

    然而,还有一个分析我们经常提到,却很少人去折腾一个易于使用的工具,进而导致相关分析其实很少人知道怎么做,甚至都没发现这个分析的存在意义。而这个分析就是:

    1. 确认基因集合中的转录因子,TF
    2. 基于转录因子的 Binding Motif 检索基因集合启动子区域是否存在 Binding Sites

    逻辑上,我们可以通过这类相互调控关系,构建一个初步的基因间转录调控网络,结合差异表达或者共表达网络分析,或许能让我们得到更多信息。 至于操作,使用 TBtools 分析来做则确实简单。

    安装插件

    为了完成上述分析,我写了两个插件。可以直接从插件商店下载。



    直接安装即可。

    Plant TF Binding Motif Shift

    我们手上只有一个物种的所有蛋白序列(每个基因一个代表性转录本对应的蛋白序列),首先第一件事是确定哪些基因是TF,同时能初步获得这些 TF 的 Binding Motifs。实现逻辑上,使用 TBtools 之前的 Best ID Convert 功能,映射拟南芥的 TF ,最后提取拟南芥对应 TF 的 Binding Motifs (从 PlantTFdb 或 JASPAR 数据库获取)就可以了。这个操作,逻辑上比直接MYB就找MYB,NAC就找NAC来得靠谱一些,毕竟“直系”同源或者“同个分支”的TF Binding Motifs 的保守性更高一点点。
    使用简单,打开插件



    随后只要做两个设置:

    1. 给一个感兴趣的蛋白序列集合,最好是目标物种的所有蛋白序列
    2. 设置一个输出文件

    运行完后才能后,可以看到输出文件。注意,如果是整个物种的所有蛋白序列,可能要过夜培养

    Fimo Binding Site Scan

    当我拿到了 Motifs 文件(其实是频次矩阵,这个文件可以通过上述获取,也可以自行到 JASPAR 等数据库下载云云),就可以直接扫描核酸序列了,比如目标物种的所有基因的 Promoter 序列,或者某个基因集合(如共表达模块基因)的 Promoter 序列。
    至于操作,参考界面提示即可。


    1. 给定一个 Motifs 信息文件,如上述获得
    2. 给定一个启动子序列信息
    3. 设置一个输出目录

    运行完成后,可以看到



    逻辑上,这些文件的信息是等价的,其中 fimo.html 和 fimo.tsv 可能最多人感兴趣。此处直接看 fimo.html



    类似的,如果需要基因调控网络,简单整理 tsv 文件即可。
    当然,我个人是认为,干脆就做一次去物种所有蛋白的扫描,结果保留好了。后续需要啥即用 TBtools 的 Text Row Manipulate 提取就好了。

    写在最后

    直接用 TSV 就可以进行 Cytoscape 可视化了。


    相关文章

      网友评论

        本文标题:零基础 | 基于转录因子结合 Motif 的基因间调控关系预测

        本文链接:https://www.haomeiwen.com/subject/xpupudtx.html