0. ATAC-seq能做什么?
ATAC-seq可用于:
- 得到在不同组织或不同条件下对应 可及性区域(NFR fragment)
- 得到 核小体位置(Mononucleosome fragments)
- 鉴定重要转录因子和生成 转录因子结合区域的特征(footprint)
- 生成 表观基因组图谱(peaks)
ATAC-seq分析流程概览
ATAC-seq分析流程概览
1. ATAC-seq数据比对后质控
本文掠过 碱基质控 -->mapping-->序列筛选(去duplicated reads 和 去除线粒体基因组 )的步骤
1.1 插入片段质控
插入片段大小的分布可以用来判断ATAC-seq实验的质量。插入片段大小的理论分布为:NFR fragments(<100 bp)、核小体单体(~200 bp)、核小体二聚体(~400 bp)和核小体三聚体(~600 bp),每个位置上都会有对应的特征性的峰分布(如下图)
横坐标-片段长度;纵坐标-标准化后的reads数;两个峰图都大体得在100pb, 200bp, 400bp, 600bp略有峰型(箭头标注)
1.2 TSS富集峰图
NFR的片段(下图:黑线实线)应该在基因的转录起始位点(TSS)周围富集,而核小体结合区域的片段(下图:红色虚线)应该在TSS处被形成低谷
NFR的片段--黑线实线;核小体结合区域的片段--红色虚线
2. Shifting reads
由于Tn5是以二聚体的方面结合到染色体上的,其跨度大致是9bp,在分析的时候便需要回补这个9bp的碱基差。具体的做法是将正链和负链,reads应分别偏移 +4 bp和 -5 bp,以便实现TF足迹和基序的碱基对相关分析。
3. Peak Calling
许多ChIP-seq数据的Peak calling软件可以用于ATAC-seq数据,而 ENCODE 项目 选择MACS2作为ATAC-seq的标准Peak calling软件。为了保持数据一致可对比,很多研究者也都采用MACS2软件。Peak calling的结果通常以bed格式或bdg格式进行展示。
ENCODE项目(Encyclopedia of DNA Elements,DNA元件百科全书)是一个由美国国家人类基因组研究所(NHGRI)在2003年9月发起的一项公共联合研究项目,旨在找出人类基因组中所有的功能组件。这是继完成 “人类基因组计划” 后国家人类基因组研究所开始的最重要的项目之一。
Peak Calling软件根据原理主要分为两大类:Count-based方法和Shaped-based方法。一般Count-based方法的软件更易于使用和解释结果。这些软件采用不同的统计方法比较目标区域和随机背景区域的reads分布形状。其中HMMRATAC是专门为ATAC-seq开发的软件,除了比较占用内存之外,其性能还是很不错的。
Peak calling软件汇总:Count-based方法的软件结果表现差异不大,但Shaped-based方法的软件结果与Count-based软件结果非常不同4. Peak differential analysis
目前没有专门为ATAC-seq开发的差异peak分析软件。差异peak分析首先通过寻找候选区域(共有peak或根据bin划分的基因组),然后标准化后对这些区域内的片段进行计数,最后在相同坐标内与其他处理条件的样本进行统计学比较。
Peak differential analysis相关工具
5. Peak annotation
一般情况下,软件会关联Peak与 “距离其最近的基因” 或者 “调控元件” 来进行peak注释, HOMER、ChIPseeker、ChIPpeakAnno等软件都可以把peak分配到最近或重叠的基因、外显子、内含子、启动子、5'UTR、3’UTR和其他基因组功能区。随后可以用GO、KEGG、Reactome等数据库做peak关联基因功能富集分析。
6. Motif 相关分析
开放的染色质区域一般可以结合特定的转录因子进而影响转录过程,转录因子识别的DNA序列即为motif。对motif的分析包括 motif富集分析 和 转录因子footprint分析。
6.1 motif富集分析
目前适用最普遍的motif数据库是JASPAR数据库,其中收录了很多物种的motif数据。
首先获得每个peak区域里的motif位置和频率,然后与随机背景或另一种条件的背景进行比较,最后得到motif富集的结果。
6.2 转录因子footprint分析
转录因子footprit 是指一个转录因子结合在DNA上,阻止Tn5酶切割,在染色质开放区域留下一个相对缺失的位置。
目前该分析需要解决的3个问题:
(1)建库时Tn5酶切会产生9bp的粘性末端切口,经过末端修复补齐后,原始reads在预处理时经过移位才可以准确检测到footprint(前面介绍的软件已经解决)
(2)Tn5酶切具有5‘端偏好性
(3)某些瞬时结合的转录因子footprint信号比较弱
目前转录因子footprint分析根据算法分为两类: de novo 和 motif-centric
- de novo:该类型的软件需要通过理论计算来鉴别转录因子的footprint信息,并且消除Tn5酶切时的5’偏好性。目前只有HINT-ATAC可以处理ATAC-seq数据特有的偏好性。该方法在一些低质量和新发现的一些motif上具有优势。
- Motif-centric:此类方法主要关注已知TF的结合位点,主要软件有MILLIPEDE、DeFCoM等。联合ChIP-seq数据的Motif-centric方法在footprint分析上优于de nove的方法,但是这些ChIP-seq数据来源于特定的转录因子和特定的细胞类型,通用性并不强。
Postscript: ATAC-seq数据可以通过联合分析RNA-seq数据来发现哪些差异表达的基因是受染色质可及性调控的,进一步可以推测这些差异表达的基因哪些是受开放染色质中具有motif和footprint的转录因子调控的,因此ATAC-seq与RNA-seq的联合分析有助于破译基因调控网络和细胞异质性。
参考链接:https://www.jianshu.com/p/77462a146e29
参考文献:From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis
网友评论