美文网首页生信分析工具包科研信息学
REPIC数据库,将m6A数据与表观数据联合分析

REPIC数据库,将m6A数据与表观数据联合分析

作者: 表观遗传小助理 | 来源:发表于2020-08-24 13:30 被阅读0次

    REPIC(RNA EPItranscriptome Collection)数据库记录了大约1000万个peak,这些peak是使用统一的分析方法从公开可用的m6A-seq和MeRIP-seq数据中得到的。将这些数据在内置基因组浏览器中呈现,用以展示m6A甲基化位点组蛋白修饰位点染色质可及性区域。REPIC的网址是:https://repicmod.uchicago.edu/repic.。

    参考文献:REPIC: a database for exploring the N6-methyladenosine methylome

    为了更好地探索日益复杂的m6A数据集,已经构建了几个数据库(RMBase v2.0、MET-DB v2.0、CVm6A)和Web服务器(RNAmod、Well、SRAMP)来组织和集成现有资源。

    其中,RMBase v2.0整合了5种或更多类型的RNA修饰、RBP结合位点和单核苷酸多态性的位点信息,而Met-DB v2.0和CVm6A从原始m6A测序数据中公布了由它们自己的分析方法处理的m6A peak(表1)。

    最近的研究发现了m6A修饰与启动子或组蛋白标记之间的联系,为潜在的调控途径及其机制提供了新的见解。通过这些途径,m6A可以影响转录调控和基因表达。然而,m6A修饰和表观基因组数据并没有很好地协调在一起,需要新的生物信息学工具来处理、分析和可视化这些数据的集成。

    表1 REPIC与已发表数据库的比较总结

    结构和内容

    REPIC数据库收集了不同物种的m6A修饰和表观基因组测序数据。作者设计了一个现代化的、用户友好的门户网站,用于查询m6A修饰位点,并设计了一个交互式基因组浏览器(图1)。

    图1 数据库总体设计
    • 1 、高通量测序数据

    总共从SRA获得了607个m6A-seq和544个MeRIP-seq测序数据。合并同一实验的不同测序数据,并排除未配对的input-IP样本后,有672个样本(包括来自49项研究的339对input-IP数据,覆盖11个生物体的61个细胞系或组织类型)被用于构建数据库。对于表观基因组数据,总共从ENCODE网站下载了:来自29个细胞系或组织类型的118个DNase-seq数据;来自22个细胞系或组织类型的27个组蛋白标记的1418个组蛋白ChIP-seq数据。

    • 2、基因组注释数据

    分别从UCSC基因组浏览器和GENCODE获得人类和小鼠基因组序列和基因注释文件。拟南芥基因组序列和基因注释来自TAIR网站。其余的物种是从Ensembl网站下载的。

    • **3、m6A-seq 和 MeRIP-seq 原数据处理流程 **

    上述339对input- IP数据通过定制化的分析流程进行了再处理(图2)。

    图2 数据分析流程

    通用性与讨论

    • 1、评估m6A-seq和MeRIP-seq数据质量

    首先检测了每个样本中的rRNA含量,图2A的结果中表明大多数样本没有受到rRNA污染。而且85.7%的样本的基因组比对率大于75%,16个人和22个小鼠样本的基因组比对率较低(<60%),被检测出含有病毒感染、载体或支原体污染或其他未知情况(图2B)。

    图3 m6A-seq 或MeRIP-seq 数据的比对情况
    • 2 、细胞或组织特异性的m6A修饰

    由于基因是以组织特异性的方式表达的,怀疑m6A修饰也具有类似的特征。所以检查了人类细胞系和组织中m6A富集水平排名靠前2000个基因。通过比较5‘UTR、CDS、3’UTR和整个区域上的样本的m6A富集情况,作者观察到来自相同细胞系或组织类型的样本在终止密码子区域(图4A)之间有最强相关性。这一现象也出现在t-SNE图中,来自相同细胞或组织类型的样本被聚集在一起,并与其他不同的组明显分开(图4B)。

    图4 细胞或组织特异性m6A修饰

    为了深入了解m6A修饰的细胞或组织特异性,REPIC支持按细胞系或组织类型查询m6A修饰。在搜索页面上,作者列出了所有可用的细胞系和组织类型的选项,旁边是过滤选项 (图5)。一旦提交的查询完成,将在用户友好的界面中呈现报告,其中包含每个peak的以下信息:基因组位置、识别peak的分析工具、丰富指数和基因组特征注释等。详细操作说明见https://repicmod.uchicago.edu/repic/manual.php

    图5 REPIC数据库的web界面截图
    • 3、m6A修饰和表观基因组数据的可视化

    搜索页面上的查询仅限于基因。为了更好地显示整个基因组中的多维m6A修饰信息,REPIC提供了一个基因组浏览器,可以可视化m6A峰、富集程度和基因表达水平。像UCSC基因组浏览器或其他类似的基因组浏览器一样,用户可以选择多个轨迹来交互地显示特定基因组不同位置的peak或表达谱数据。

    图6展示的是浏览器实用性的一个例子,作者观察到H3K4me3和DNase-seq的峰位于NANOG基因的启动子区域,表明它在hESCs中被活跃转录。还注意到,终止密码子区域的m6A修饰被H3K36me3的峰富集,这与最近报道的依赖H3K36me3的m6A修饰沉积机制一致。

    图6 以NANOG基因为例

    未来方向

    由于m6A修饰检测技术已经应用于不同物种不同条件下的各种细胞/组织类型,作者将继续收集新的m6A/MERIP-seq样本,并将扩大REPIC对RNA甲基化修饰进行的分类。另一个未来的发展将是整合非表位转录数据,如RBP结合位点、GWAS和GTEx数据,以促进RNA修饰的评估和解释。

    文章转自微信公众号:嘉因生物

    相关文章

      网友评论

        本文标题:REPIC数据库,将m6A数据与表观数据联合分析

        本文链接:https://www.haomeiwen.com/subject/vlfnjktx.html