美文网首页
染色质可及性(二):ATAC-seq数据分析

染色质可及性(二):ATAC-seq数据分析

作者: 熊猫人和熊猫猫 | 来源:发表于2023-04-09 21:42 被阅读0次

    0. ATAC-seq能做什么?

    ATAC-seq可用于:

    • 得到在不同组织或不同条件下对应 可及性区域(NFR fragment)
    • 得到 核小体位置(Mononucleosome fragments)
    • 鉴定重要转录因子和生成 转录因子结合区域的特征(footprint)
    • 生成 表观基因组图谱(peaks)
    NFR fragments:开放染色质中两个核小体之间的Linker DNA片段;Mononucleosome fragment:核小体单体上结合的DNA片段;peaks:fragment组成的峰;footprint:转录因子足迹

    ATAC-seq分析流程概览


    ATAC-seq分析流程概览

    1. ATAC-seq数据比对后质控

    本文掠过 碱基质控 -->mapping-->序列筛选(去duplicated reads 和 去除线粒体基因组 )的步骤

    1.1 插入片段质控

    插入片段大小的分布可以用来判断ATAC-seq实验的质量。插入片段大小的理论分布为:NFR fragments(<100 bp)、核小体单体(~200 bp)、核小体二聚体(~400 bp)和核小体三聚体(~600 bp),每个位置上都会有对应的特征性的峰分布(如下图)


    横坐标-片段长度;纵坐标-标准化后的reads数;两个峰图都大体得在100pb, 200bp, 400bp, 600bp略有峰型(箭头标注)

    1.2 TSS富集峰图

    NFR的片段(下图:黑线实线)应该在基因的转录起始位点(TSS)周围富集,而核小体结合区域的片段(下图:红色虚线)应该在TSS处被形成低谷


    NFR的片段--黑线实线;核小体结合区域的片段--红色虚线

    2. Shifting reads

    由于Tn5是以二聚体的方面结合到染色体上的,其跨度大致是9bp,在分析的时候便需要回补这个9bp的碱基差。具体的做法是将正链和负链,reads应分别偏移 +4 bp和 -5 bp,以便实现TF足迹和基序的碱基对相关分析。

    3. Peak Calling

    许多ChIP-seq数据的Peak calling软件可以用于ATAC-seq数据,而 ENCODE 项目 选择MACS2作为ATAC-seq的标准Peak calling软件。为了保持数据一致可对比,很多研究者也都采用MACS2软件。Peak calling的结果通常以bed格式或bdg格式进行展示。

    ENCODE项目(Encyclopedia of DNA Elements,DNA元件百科全书)是一个由美国国家人类基因组研究所(NHGRI)在2003年9月发起的一项公共联合研究项目,旨在找出人类基因组中所有的功能组件。这是继完成 “人类基因组计划” 后国家人类基因组研究所开始的最重要的项目之一。

    Peak Calling软件根据原理主要分为两大类:Count-based方法和Shaped-based方法。一般Count-based方法的软件更易于使用和解释结果。这些软件采用不同的统计方法比较目标区域和随机背景区域的reads分布形状。其中HMMRATAC是专门为ATAC-seq开发的软件,除了比较占用内存之外,其性能还是很不错的。

    Peak calling软件汇总:Count-based方法的软件结果表现差异不大,但Shaped-based方法的软件结果与Count-based软件结果非常不同

    4. Peak differential analysis

    目前没有专门为ATAC-seq开发的差异peak分析软件。差异peak分析首先通过寻找候选区域(共有peak或根据bin划分的基因组),然后标准化后对这些区域内的片段进行计数,最后在相同坐标内与其他处理条件的样本进行统计学比较。


    Peak differential analysis相关工具

    5. Peak annotation

    一般情况下,软件会关联Peak与 “距离其最近的基因” 或者 “调控元件” 来进行peak注释, HOMER、ChIPseeker、ChIPpeakAnno等软件都可以把peak分配到最近或重叠的基因、外显子、内含子、启动子、5'UTR、3’UTR和其他基因组功能区。随后可以用GO、KEGG、Reactome等数据库做peak关联基因功能富集分析。

    6. Motif 相关分析

    开放的染色质区域一般可以结合特定的转录因子进而影响转录过程,转录因子识别的DNA序列即为motif。对motif的分析包括 motif富集分析转录因子footprint分析

    6.1 motif富集分析

    目前适用最普遍的motif数据库是JASPAR数据库,其中收录了很多物种的motif数据。
    首先获得每个peak区域里的motif位置和频率,然后与随机背景或另一种条件的背景进行比较,最后得到motif富集的结果。

    6.2 转录因子footprint分析

    转录因子footprit 是指一个转录因子结合在DNA上,阻止Tn5酶切割,在染色质开放区域留下一个相对缺失的位置。
    目前该分析需要解决的3个问题:
    (1)建库时Tn5酶切会产生9bp的粘性末端切口,经过末端修复补齐后,原始reads在预处理时经过移位才可以准确检测到footprint(前面介绍的软件已经解决)
    (2)Tn5酶切具有5‘端偏好性
    (3)某些瞬时结合的转录因子footprint信号比较弱

    目前转录因子footprint分析根据算法分为两类: de novo 和 motif-centric

    • de novo:该类型的软件需要通过理论计算来鉴别转录因子的footprint信息,并且消除Tn5酶切时的5’偏好性。目前只有HINT-ATAC可以处理ATAC-seq数据特有的偏好性。该方法在一些低质量和新发现的一些motif上具有优势。
    • Motif-centric:此类方法主要关注已知TF的结合位点,主要软件有MILLIPEDE、DeFCoM等。联合ChIP-seq数据的Motif-centric方法在footprint分析上优于de nove的方法,但是这些ChIP-seq数据来源于特定的转录因子和特定的细胞类型,通用性并不强。

    Postscript: ATAC-seq数据可以通过联合分析RNA-seq数据来发现哪些差异表达的基因是受染色质可及性调控的,进一步可以推测这些差异表达的基因哪些是受开放染色质中具有motif和footprint的转录因子调控的,因此ATAC-seq与RNA-seq的联合分析有助于破译基因调控网络和细胞异质性。

    参考链接:https://www.jianshu.com/p/77462a146e29
    参考文献:From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis

    相关文章

      网友评论

          本文标题:染色质可及性(二):ATAC-seq数据分析

          本文链接:https://www.haomeiwen.com/subject/tpvbddtx.html