转录因子对靶基因的调控是转录调控研究的核心问题。
近两年,越来越多的研究者关心lncRNA/circRNA调控了谁?谁来调控lncRNA/circRNA?随着技术的发展和数据的积累,现在能更加完善的解决这个问题。
转录因子调控了谁?
两种高通量实验和一种计算方法能够解决这个问题
-
Plan A:ChIP-seq,最直接,最有效
-
Plan B:DNase-seq/ATAC-seq或RNA-seq,曲线救国;与ChIP-seq整合分析更准确
-
Plan C:基于motif预测
Plan A:ChIP-seq
ChIP-seq,染色质免疫沉淀实验结合高通量测序,是在体内in vivo研究蛋白质与DNA结合关系的最有效方法。
简单讲ChIP-seq的原理:用转录因子(简称TF)的抗体抓TF,顺便抓下来TF结合的DNA,提取DNA,测序,就知道TF结合了哪些DNA,推测DNA附近的基因受该TF的调控。
imageCistromeDB数据库,http://cistrome.org/db/,收录了已发表的人和小鼠2万多套ChIP-seq、DNase-seq和ATAC-seq数据,不断更新收录新数据。
image查看您感兴趣的转录因子是否已经做过ChIP-seq,您感兴趣的细胞系有没有人做过DNase-seq或ATAC-seq,查询方法非常简单。可进入http://cistrome.org/db/#/tutorial查看教程,有视频讲解。
点击Get top putative targets,这个表里就是该转录因子调控的靶基因
imageChIP实验依赖于抗体,如果感兴趣的TF没有好用的抗体,怎么办?(点击此处查看ChIP抗体查询方法)。有Plan B,用DNase-seq/ATAC-seq或RNA-seq寻找受TF调控的基因。
Plan B:DNase-seq/ATAC-seq或RNA-seq
实验材料:
处理组:TF KD/KO/过表达或激活的样品
对照组:TF正常表达的样品
实验方法:
DNase-seq/ATAC-seq,观察两组样品基因组开放区域的变化,推测TF结合的位置,从而推测TF调控的靶基因。
如何查询已发表的DNase-seq/ATAC-seq数据?
到CistromeDB里查找DNase-seq/ATAC-seq数据,找你感兴趣的TF KO/KD/过表达或激活的样品。如果没有已发表数据,就自己做TFKO/KD/过表达或激活的样品。DNase-seq实验不稳定,世界上只有个别组能做好该实验;推荐做ATAC-seq。
RNA-seq,筛选两组样品的差异表达基因,推测TF调控的靶基因。
怎样找到这样两组样品的已发表的RNA-seq数据?
从GEO数据库www.ncbi.nlm.nih.gov/geo/搜索感兴趣的TF,在左侧点击Study type->Customize ...,勾选Expression profiling by high throughput sequencing
image点击右侧Top Organisms里的Homo sapiens (29),筛选出带有TP53字样的人的高通量测序表达谱数据。
image往下拉,找TP53发生变化的样品的测序数据,找到不只一套
image下载GSE89226_Gene_count_rpkm.txt.gz文件,查看差异表达基因,推测受TP53调控的基因。
image如果没有可用的ChIP-seq、DNase-seq、ATAC-seq公共数据,也不想自己测序产生数据,就上Plan C。
Plan C:motif分析
每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。去基因组上搜索motif所在的位置,其附近的基因就有可能受该TF的调控。
怎样找TF的motif?motif在哪些基因附近?
JASPAR和TRANSFAC对比,参考seqanswer上资深member的评价:
imageJASPAR数据库http://jaspar.genereg.net/收录的TF motif信息全质量好。查询感兴趣的TF CEBPB,Quick Search
image点击motif logo,就是那个彩色的高高低低的ATCG图
image点击左侧SITES下的...as bed file,就能看到motif所在的位置信息。
imagebed file长这样
image要直观的查看具体位置怎么办?
把上面的网页另存为文本文件,拖拽到IGV里,就能看到哪个基因附近有motif。
image想获得基因列表,怎么办?
用UCSC的Table Browser,https://genome.ucsc.edu/cgi-bin/hgTables,在region行选择position,点击最右边的define regions。
image把bed文件的前三列粘贴进去
imagesubmit,回到Table Browser页面,点击get output,第二列就是基因名。到Excel里,把第二列复制粘贴出来就行了。
image小结
Plan A : ChIP-seq。找到的是TF直接结合的DNA,包括TF1结合TF2,TF2结合Gene1的情况;
Plan B : RNA-seq、DNase-seq/ATAC-seq。找到的受TF调控的基因有可能是直接调控,也可能是间接调控,即TF1调控了TF2,TF2调控了Gene1。
Plan C : motif。某个位置有motif,TF未必会结合;反之,没有motif,TF未必不结合,有可能TF1结合到TF2上或mediator上,再结合到DNA上。
点击阅读原文
网友评论