REPIC(RNA EPItranscriptome Collection)数据库记录了大约1000万个peak,这些peak是使用统一的分析方法从公开可用的m6A-seq和MeRIP-seq数据中得到的。将这些数据在内置基因组浏览器中呈现,用以展示m6A甲基化位点、组蛋白修饰位点和染色质可及性区域。REPIC的网址是:https://repicmod.uchicago.edu/repic.。
参考文献:REPIC: a database for exploring the N6-methyladenosine methylome
为了更好地探索日益复杂的m6A数据集,已经构建了几个数据库(RMBase v2.0、MET-DB v2.0、CVm6A)和Web服务器(RNAmod、Well、SRAMP)来组织和集成现有资源。
其中,RMBase v2.0整合了5种或更多类型的RNA修饰、RBP结合位点和单核苷酸多态性的位点信息,而Met-DB v2.0和CVm6A从原始m6A测序数据中公布了由它们自己的分析方法处理的m6A peak(表1)。
最近的研究发现了m6A修饰与启动子或组蛋白标记之间的联系,为潜在的调控途径及其机制提供了新的见解。通过这些途径,m6A可以影响转录调控和基因表达。然而,m6A修饰和表观基因组数据并没有很好地协调在一起,需要新的生物信息学工具来处理、分析和可视化这些数据的集成。
表1 REPIC与已发表数据库的比较总结结构和内容
REPIC数据库收集了不同物种的m6A修饰和表观基因组测序数据。作者设计了一个现代化的、用户友好的门户网站,用于查询m6A修饰位点,并设计了一个交互式基因组浏览器(图1)。
图1 数据库总体设计- 1 、高通量测序数据
总共从SRA获得了607个m6A-seq和544个MeRIP-seq测序数据。合并同一实验的不同测序数据,并排除未配对的input-IP样本后,有672个样本(包括来自49项研究的339对input-IP数据,覆盖11个生物体的61个细胞系或组织类型)被用于构建数据库。对于表观基因组数据,总共从ENCODE网站下载了:来自29个细胞系或组织类型的118个DNase-seq数据;来自22个细胞系或组织类型的27个组蛋白标记的1418个组蛋白ChIP-seq数据。
- 2、基因组注释数据
分别从UCSC基因组浏览器和GENCODE获得人类和小鼠基因组序列和基因注释文件。拟南芥基因组序列和基因注释来自TAIR网站。其余的物种是从Ensembl网站下载的。
- **3、m6A-seq 和 MeRIP-seq 原数据处理流程 **
上述339对input- IP数据通过定制化的分析流程进行了再处理(图2)。
图2 数据分析流程通用性与讨论
- 1、评估m6A-seq和MeRIP-seq数据质量
首先检测了每个样本中的rRNA含量,图2A的结果中表明大多数样本没有受到rRNA污染。而且85.7%的样本的基因组比对率大于75%,16个人和22个小鼠样本的基因组比对率较低(<60%),被检测出含有病毒感染、载体或支原体污染或其他未知情况(图2B)。
图3 m6A-seq 或MeRIP-seq 数据的比对情况- 2 、细胞或组织特异性的m6A修饰
由于基因是以组织特异性的方式表达的,怀疑m6A修饰也具有类似的特征。所以检查了人类细胞系和组织中m6A富集水平排名靠前2000个基因。通过比较5‘UTR、CDS、3’UTR和整个区域上的样本的m6A富集情况,作者观察到来自相同细胞系或组织类型的样本在终止密码子区域(图4A)之间有最强相关性。这一现象也出现在t-SNE图中,来自相同细胞或组织类型的样本被聚集在一起,并与其他不同的组明显分开(图4B)。
图4 细胞或组织特异性m6A修饰为了深入了解m6A修饰的细胞或组织特异性,REPIC支持按细胞系或组织类型查询m6A修饰。在搜索页面上,作者列出了所有可用的细胞系和组织类型的选项,旁边是过滤选项 (图5)。一旦提交的查询完成,将在用户友好的界面中呈现报告,其中包含每个peak的以下信息:基因组位置、识别peak的分析工具、丰富指数和基因组特征注释等。详细操作说明见https://repicmod.uchicago.edu/repic/manual.php。
图5 REPIC数据库的web界面截图- 3、m6A修饰和表观基因组数据的可视化
搜索页面上的查询仅限于基因。为了更好地显示整个基因组中的多维m6A修饰信息,REPIC提供了一个基因组浏览器,可以可视化m6A峰、富集程度和基因表达水平。像UCSC基因组浏览器或其他类似的基因组浏览器一样,用户可以选择多个轨迹来交互地显示特定基因组不同位置的peak或表达谱数据。
图6 以NANOG基因为例图6展示的是浏览器实用性的一个例子,作者观察到H3K4me3和DNase-seq的峰位于NANOG基因的启动子区域,表明它在hESCs中被活跃转录。还注意到,终止密码子区域的m6A修饰被H3K36me3的峰富集,这与最近报道的依赖H3K36me3的m6A修饰沉积机制一致。
未来方向
由于m6A修饰检测技术已经应用于不同物种不同条件下的各种细胞/组织类型,作者将继续收集新的m6A/MERIP-seq样本,并将扩大REPIC对RNA甲基化修饰进行的分类。另一个未来的发展将是整合非表位转录数据,如RBP结合位点、GWAS和GTEx数据,以促进RNA修饰的评估和解释。
文章转自微信公众号:嘉因生物
网友评论