iSTARR-seq是南方科技大学牛见龙博士于2020年10月21在bioRxiv上发表的文章中提出的一种STARR-seq的改进方法。
南方科技大学牛见龙博士于2020年10月21在bioRxiv上发表的文章中指出:STARR-seq在拟南芥(a . thaliana)细胞中存在严重的系统错误,大量的自转录本(STs)在逆转录过程中丢失,因为这些STs在检测序列时被选择性聚腺苷酸化位点alternative polyadenylation site (APAS)聚腺苷酸化。作者利用专门设计的引物解决了这一问题,并恢复了与PAS使用无关的自转录序列,并将这一改进技术称为iSTARR-seq,该技术适用于自转录self-transcripts (STs) 量化。
作者使用iSTARR-seq方法在拟南芥内源性基因组位点中发现了活性增强子和静止增强子。与传统的STARR-seq鉴定的增强子不同,iSTARR-seq鉴定的增强子在基因5′端和3′端近端高度富集,其表观遗传状态与基因表达水平相关。
iSTARR-seq模型
STARR-seq目前广泛应用于增强子活性检测。但传统的STARR-seq的准确性严重依赖于从报告基因reporter gene启动子开始的自转录mRNA的完全恢复。
在质粒构建过程中,polyadenylation site(PAS)被添加到报告基因的后端,由于这个是设计好的PAS用来给自转录self-transcripts (STs) 做聚腺苷酸化polyadenylation 的,称之为“DPAS”。但是,可能存在alternative另外的 polyadenylation site(PAS)在检测DNA序列中,也是受到了enhancer的潜在影响,称之为“APAS”。APAS在STARR-seq中是不会被检测到的。
为了避免潜在增强子信号丢失,作者重新设计了反转录引物(在原来的反转录引物前添加了N6T18(即NNNNNNTTTTTTTTTTTTTTTTTTT序列)),并称这种方法为: “iSTARR-seq"。(图2.1)

图2.1 STARR-seq 改进。Box a 传统的STARR-seq构建方法。Box b iSTARR-seq 构建方法。
比较两种方法的差异
STARR-seq和iSTARR-seq的质粒建库的结果是相似的,因为二者的转染过程是一致的。不同于质粒建库结果,iSTARR-seq的cDNA片段明显较短。


图2.2 STARR-seq和iSTARR-seq建库差异。
将总体自转录total self-transcripts(tSTs)按照反转录引物的不同分为两类,DPAS polyadenylated后的STs称为“dSTs” ;APAS polyadenylated后的STs称为“aSTs”。
用两种方法鉴定拟南芥增强子
在拟南芥中鉴定出来了13,424个aSTs区域(占tSTs的61%),大多数aSTs区域都比对到了拟南芥基因组,这表明在STARR-seq中确实丢失了aSTs信息。


图2.3 比较STARR-seq和iSTARR-seq的增强子鉴定结果。
STARR-seq和iSTARR-seq的分别鉴定的增强子为15,862个和4956个,其中共有的增强子数目为2161个,而大多数STARR-seq鉴定的增强子不同于iSTARR-seq(13,701, 86.4%)(图2.3a)。iSTARR-seq特有的增强子的 aSTs 比例显著高于STARR-seq特有增强子以及共有增强子,且STARR-seq特有增强子的 aSTs 比例是最低的(图2.3b)。STARR-seq结果中73.2%的增强子分布在CDS区域,而iSTARR-seq结果中增强子分布在CDS区域只占41.6%。在拟南芥基因组中,aST与iSTARR-seq增强子和APASs同样富集于相同的基因组区域(图2.3d)。iSTARR-seq增强子的活性与其体外RT-PCR定量活性之间存在良好的相关性(图2.3f, Pearson相关性,r=0.8082)。这些结果表明,STARR-seq实验中由于大量aST的丢失,许多STARR-seq鉴定的增强子可能是假阳性的,同时,由于aST的丢失,有相当多的增强子也无法被识别。
与STARR-seq增强子的分布模式不同,iSTARR-seq增强子在转录起始位点(TSSs)和转录终止位点(TTSs)附近两个区域的表达量过高(图2.3g),在5 '和3 ' UTR的基因两端富集(图2.3d),与此同时,在基因体内gene bodies的表现略显不足(图2.3g)。
拟南芥中的增强子特征
拟南芥中的增强子通常伴随高表达水平的基因(图2.4a)。邻近增强子的6518个基因的显著高表达(图2.4b)。S1T1组(5' TSS和3 ' TTS都有增强子)基因表达低于S0T1组(只有3' TSS有增强子),S1T0组(只有5' TSS有增强子)基因表达高于S0T1组,S0T0组(增强子均不在5' TSS和3 ' TTS区域)基因表达高于S0T1组(图2.4c)。这表明增强子在基因5′或3′末端的位置可能以某种方式影响基因转录的调控。GO富集显示:高表达量(FPKM>=10)的基因主要富集在代谢过程;中等表达量(1<=FPKM<10)的基因主要富集在mRNA代谢和分解代谢过程;上述两类基因大多为管家基因,分布在各种不同的细胞中。低表达量(0<=FPKM<1)的基因主要富集在发育及繁殖过程,如传粉、花粉管发育及生长。

图2.4 增强子与基因表达的关系
iSTARR-seq鉴定的增强子可能在其内源性基因组位点上携带不同的表观遗传标记。为了表征增强子的表观遗传状态,我们收集了的叶片细胞染色质可及性、RNAPII结合、DNA甲基化和组蛋白修饰的数据集。增强子大多可被dnase和Tn5酶消化,被RNAPII富集;H3K4me1缺少增强子,而H3K4me3则富集增强子; H3K27ac、H3K9ac、H3K36ac 、 H3K56ac均有增强子富集(图2.5a)。根据增强子与表观遗传标记的关系可以将增强子分为4类(图2.5b)。
4类增强子在基因组区域中显示出显著不同的分布模式(图2.5c),以及相对于TSS和TTS的不同距离(图2.5d)。同时,4类增强子的表达量高低也存在明显差异,增强子Cluster1中主要为高表达量基因组(FPKM>=10),增强子Cluster1中主要为不表达量基因组(图2.5 e/f)。

图2.5 拟南芥增强子的表观遗传状态
增强子DNA为转录因子提供了平台,通过DAP-seq检测转录因子结合位点(TFBS)。STARR-seq和iSTARR-seq的增强子大多数都与TFBS上显著富集,但STARR-seq的增强子几乎都在较低水平上富集(图2.6 a)。4类增强子的TFBS富集差异很大(图2.6 b-e),TFBSs最明显地富集于增强子cluster1和增强子cluster2,与增强子cluster3相似,增强子cluster4在大多数TFBS检查中不富集。cluster3与高水平的基因表达密切相关(图2.5d),但缺乏最活跃的组蛋白修饰(图2.5b),这些表明cluster3可能通过一种不太明确的机制发挥作用,或可能通过基因环(gene looping,一个三维结构,有效地促进了RNAPII的回收利用)。cluster4在重复序列中过度表达(图2.5 c),其中已知的转录因子结合位点可能没有在非重复序列中富集。另一种可能是,许多发育或分化特异性TFBSs尚未被很好地表征,因此本研究未进行分析。

图2.6 增强子与43种TFBS的相互关系
iSTARR-seq鉴定的增强子在结合不同类型转录因子的存在不同潜力。这些差异编码在DNA序列中,决定了需要招募哪些转录因子。转录因子的时间和空间特异性表达为分化和发育过程中控制基因表达的复杂机制增加了另一层复杂性。
数据及代码
Data
All raw data are deposited in the sequence read archive under the accession number GSE157030 and are accessible with secure token etqxquucrbcbxcj. All raw data are also available under the accession number of CRA003161 at http://bigd.big.ac.cn/gsa/s/cYaC5mpq.
Code Availability Custom codes are available at https://github.com/jing-wan/iSTARR-seq_data_analysis .
参考文献:
----------------------------------------------------------------------------------------------------------------------------------I am a line!-----------------------------------------------------------------------------------------
网友评论