美文网首页收藏
利用UCSC预测启动子序列可能结合的转录因子

利用UCSC预测启动子序列可能结合的转录因子

作者: 生信云笔记 | 来源:发表于2023-05-11 11:17 被阅读0次

日常瞎掰

  一个启动子序列如何预测其可能结合的转录因子呢?最近就接到了这么一个任务,预测一段人的启动子序列可能结合的转录因子。任务并不难,也可以选择用homer2MEME等软件来预测,这里不做讨论。其实,UCSC里面已经包含了一些模式生物如人、小鼠等基因组序列的转录因子结合预测结果,咱们直接利用就完了。

UCSC

  UCSC网站里面包含了很多有用的数据,尤其是人和小鼠。下面的链接就是人基因组序列可能结合的转录因子的预测结果,这个文件大小为114G,如果想下载到本地备用,下载时间就得取决于网速了。其实,如果只是一次性使用,完全可以利用工具从网站数据里面直接提取想要的数据,快捷省事。该文件格式为bigbed,即使下载到本地也没法直接操作,还是需要借助UCSC的小工具bigBedToBed来完成。

  1. 数据链接
      这个链接是人的数据,如果物种是小鼠的话,可以将链接中的hg38替换为mm10即可。其他物种有没有预测的结果,可以自行通过链接查阅。
    https://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb

  2. 数据内容
      bigbed本质上为二进制的bed格式,转化为文本类型的 bed后就可以直接查看了,里面包含的内容如下所示:

  1. score
      预测结果里面的score值,可以用来衡量结合的可能性,值越大越有可能结合。同时,UCSC也给出了scorepvaue对应关系,阈值越严格假阳性越少,大家可以根据实际情况自行决定。UCSC网站默认使用的score阈值为400。
  1. 工具链接
      UCSC的里面有很多专门用来处理各种数据格式的小工具。后面需要用到bigBedToBedbigWigAverageOverBed,可以提前下载好。
    http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64

  前面说过可以在线获取数据,下面我们就来演示一下如何利用工具获取想要的数据。将启动子序列在基因组上的位置带入类似下面的命令里面,即可得到所有可能结合的转录因子:

bigBedToBed http://hgdownload.soe.ucsc.edu/gbdb/hg38/jaspar/JASPAR2022.bb -chrom=chr1 -start=200000 -end=200400 hg38_transfactor.bed

  虽然已经得到结合的转录因子,但毕竟是算法预测的结果,结果多姑且不说,里面肯定也会有很多假阳性的结果。所以,还是得想办法利用一些其他的数据,如序列保守性、ChIP-seq结果来辅助过滤结果,缩小范围的同时提高结果的准确性。

进化保守性

  基因组序列的保守性指的是在进化中高度保持不变的序列或区域。一般来说,具有功能的基因或序列在不同物种之间的保守性更高,因为它们在漫长的进化过程中必须保持其功能。因此,基因组序列的保守性越强,越有可能是具有重要生物学功能的序列。但是,保守性并不是功能的唯一指标,一些非功能性序列也可能高度保守。phastConsphyloP都可以用来评估序列保守性,这里使用前者来评估。phastCons会给出一个0-1之间的score值,值越大保守性越高。

  UCSC里面已经有人的基因组序列与其他99种脊椎动物的保守性评估结果,咱们可以直接利用,数据链接如下:
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/phastCons100way/hg38.phastCons100way.bw

  咱们可以给每一个转录因子的结合区域计算一个平均保守性,然后利用这样值可以对结果进行过滤:

bigWigAverageOverBed hg38.phastCons100way.bw motif.bed out.tab

  使用上面的命令需要注意:输入的bed文件最少为4列,且第四列的ID不能有重复。评估结果里面包含以下内容:

  • name - name field from bed, which should be unique
  • size - size of bed (sum of exon sizes
  • covered - # bases within exons covered by bigWig
  • sum - sum of values over all bases covered
  • mean0 - average over bases with non-covered bases counting as zeroes
  • mean - average over just covered bases

cistrome

  cistrome网站搜录了很多转录因子和组蛋白的ChIP-seq结果。咱们可以借助该网站的数据来验证预测的转录因子结合位点,是否有真实的ChIP-seq数据支持。这样预测结果就更多了一点真实性的筛选条件。

  打开网站http://dbtoolkit.cistrome.org,会看到如下图所示的界面,输入基因组区间后提交,就会得到所有与区间有overlapChIP-seq结果。令人忧伤的是在线查询一次只能查询一个区间,如果需要查询很多的话就得另寻他径了。

  最后,展示一下预测结果的快照。有了这些信息,如果想挑一些转录因子来做实验验证的话,选择时就会多一点信心了。

结束语

  实验当然不是盲目的,开始前肯定会做一些调研,搜集的信息越多,可以参考的信息就越多,那么也就会获得更具有价值的结果。所以尽量多利用一些可用的公共数据,可谓是一个明智之举。最后,还是忍不住夸一下UCSC,作为一个数据库网站,里面着实有很多现成的可用数据,利用里面的数据可以达到事半功倍的效果。

往期回顾

Vision | scRNA细胞相似性 + 差异signature
HiC | contacts vs distance
hdWGCNA | 单细胞数据共表达网络分析
bed基因注释
scanpy踩坑实录

相关文章

  • 2019-07-19

    启动子及转录因子结合位点预测和转录终止信号预测

  • 一招搞定启动子序列查找

    在研究基因转录调控的过程中,科研汪经常需要构建某个基因启动子的荧光素酶报告质粒或者预测与某基因启动子结合的转录因子...

  • 如何预测转录因子的结合位点

    原创 如期生物 转录因子预测的网站有比较多,本着实用至上的原则,今天以人的“转录因子SPI1”和“FAU的启动子“...

  • PlantCARE预测植物启动子-顺式作用元件

    启动子 启动子是RNA 聚合酶识别、结合和开始转录的一段DNA 序列,它含有RNA 聚合酶特异性结合和转录起始所需...

  • 预测某个基因的转录因子

    JASPAR预测靶基因与多个转录因子的结合:搜索到一个转录因子之后,add to chart

  • 用MEME-CHIP预测转录因子的结合

    如果你有一条序列或者多条序列,想知道有哪些转录因子可能结合在上面?前两天老板推荐我使用MEME-CHIP网站预测(...

  • 真核生物基因启动子

    ​启动子 启动子区域通常是指被转录的基因转录起始位点上游的序列,是特定调控元件结合的地方,能够帮助RNA转录。真核...

  • KnockTF:转录因子敲除数据库(一)

    很多转录因子预测预测的数据库是基于转录因子的chip-seq的数据来进行构建的。这样的结果能说明某一个转录因子结合...

  • 转录因子找靶基因-20210224

    50%的分子机制研究中会涉及转录因子的调控,转录因子结合到靶基因的启动子区域调控基因的表达,是基因表达量改变最重要...

  • 20201108-转录因子

    什么是转录因子 转录因子(Transcriptionfactor,TF)是一个能与特异DNA序列结合的蛋白,可以单...

网友评论

    本文标题:利用UCSC预测启动子序列可能结合的转录因子

    本文链接:https://www.haomeiwen.com/subject/bojrsdtx.html