在众多转录因子数据库中,HOCOMOCO (https://hocomoco11.autosome.ru/)是专门研究人和小鼠的数据库,其收录的人和小鼠转录因子的结合model比JASPAR,TRANSFAC等更全,更可靠。
不同于JASPAR,TRANSFA等数据库,HOCOMOCO对于结合model的算法考虑碱基覆盖度和核苷酸组成,同时能够排除同一结合model不同实验方法的影响。
HOCOMOCO使用统一的方法处理大量原始的ChIP-seq,HT-SELEX等数据,然后使用四种不同的方法鉴定peaks。使用ChIPMunk进行结合model的查找后,HOCOMOCO同时收集来自JASPAR CORE, HOMER, SWISSREGULON等数据库的结合model,对所有的结合model进行基准化。
目前,HOCOMOCO 共收集了680个人和453个鼠转录因子的结合model,其中包含1302个单核苷酸和576个二核苷酸的位置权重矩阵。
一.如何查找TF
- 可以直接通过主页右上角的搜索框直接搜索转录因子的名称,搜索框后面选择人或小鼠的数据库。
主页右侧的关系图是TF分类关系图,其中,每个蓝圈表示某个TF家族的总的TF数,较小的黄圈表示HOCOMOCO数据库中的TF数及比例。
- 可以直接通过主页右上角的搜索框直接搜索转录因子的名称,搜索框后面选择人或小鼠的数据库。
- 2. 也可以通过右上角Human TFs或者Mouse TFs,选择单核苷酸models core,单核苷酸models full或者二核苷酸models数据集。
选择进入后,可以通过Model,Transcription factor,TF family,HGNC ID,EntrezGene ID等进行检索,同时可以利用GetSCV保存搜索到的列表。
注意,如果需要更多相关model信息,可以通过Select Columns进行Consensus,Uniprot AC等展示。
点击搜索结果的Model,详细信息中,除了展示具体的转录因子ID,model名称,model类型,motif logo,家族及评分等之外,HOCOMOCO还提供了相关model的位置频率矩阵(PFM),位置权重矩阵(PWM),比对到的序列,筛选阈值,相关TF的GTEx表达数据和ReMap ChIPseq数据列表,以及其在JASPAR数据库中的链接。
motif logo的每一列表示每个位置,碱基越大表示该位置出现这个碱基的可能性越大。
PFM每一行表示ACGT4个碱基,每一列上的具体数字表示这个位置上该碱基统计到的次数。PWM,PFM,比对结果都可以直接下载。
二.查找感兴趣的基因结合的转录因子
- 1. 通过检索栏直接检索
由于HOCOMOCO提供HGNC ID和EntrezGene ID的检索,所以可以直接通过基因的以上两个ID进行检索。
- 2. 通过HOCOMOCO提供的小工具MoLoTool进行基因启动子区的序列检索
如图所示,点击进入后,可以在左上角搜索,添加感兴趣的motif;然后在下面输入或者上传需要检索的序列;通过软件计算的P value进行结果筛选后,MotifID,Sequence,logo等信息结果展示在最下面几行。同时HOCOMOCO提供多种输出保存格式。
三.HOCOMOCO提供其他工具motif比较
- 1. MACRO-APE进行motif比较及相似motif检索
如图所示,可以输入两个motif的PCM,PWM 或PPM矩阵进行比较。结果中给出相似系数,相似系数越高,表示两motif越相似。点击Results可以保存分析结果。
同时,MACRO-APE也可以进行相似motif查找。同样可以输入motif的PCM,PWM 或PPM矩阵可以在HOCOMOCO,JASPAR,HOMER等数据库中查找。
结果中,软件给出相似系数,motif重叠碱基数,方向,碱基偏移数等。其结果也可以通过点击Results进行txt格式保存。
2. PERFECTOS-APE预测motif中SNVs与SNPs可能的调节作用
如下图所示,输入有SNPs的序列信息或者上传相对应的文件,PERFECTOS-APE可以计算不同model的位置分数,然后在HOCOMOCO,JASPAR,HOMER等数据库中进行检索对应的models进行比较分析。注意输入序列的格式要求及碱基数要求。
结果如图所示,包括SNP名称,相关motif名称,突变碱基对,突变碱基P值,变化倍数,上下调情况和比对情况等。通过点击Results同样可以保存tsv格式的结果文件。
网友评论