为了寻找我的RNA-seq差异基因集(172个基因)的转录因子,这两天研究了一下
Toolkit for Cistrome Data Browser http://dbtoolkit.cistrome.org/
利用它的第三个模块:What factors have a significantbinding overlap with your peak set?
(1) 我按照https://cloud.tencent.com/developer/article/1345752
链接里的操作,进入http://asia.ensembl.org/index.html
下载了基因组中各基因位置信息列表(bed文件)和基因组中各转录因子结合位点信息列表(bed文件),具体步骤也可见下图
但是第二个——基因组中各转录因子结合位点信息列表(bed文件)我没下下来(本次操作不需要)(2) 利用基因组中各基因位置信息列表(bed文件)和我的差异基因集文本文件,通过R合成一个Toolkit for Cistrome Data Browser要求的bed文件——差异基因的基因位置BED文件(up 172 txt李同学帮助)。也可以通过EXCEL的VLOOKUP操作实现
(参考http://www.360doc.com/document/20/0319/09/66761008_900260546.shtml),但chr的加入需要手动一个一个加入,因为公式法加入的chr,Toolkit不识别。
(3) 在EXCEL中修改差异基因的基因位置BED文件:
获得差异基因的基因上游启动子区域位置坐标BED文件(2up172zhou txt 周老师帮助)
一般对于正链基因(Strand为1)启动子的start和end 位置分别=基因起点-5000,基因起点-1。
对于负链基因(Strand为-1)启动子的start和end 位置分别=基因终点+1,基因终点+5000。
(4)运行Toolkit for Cistrome Data Browser,得到结果
(5) 结果的理解可参考Cistrome DB ToolkitDocumentation
或者参考链接http://www.360doc.com/content/18/0703/15/42030643_767382058.shtml
网友评论