染色质可及性（二）：ATAC-seq数据分析

作者: 熊猫人和熊猫猫 | 来源:发表于2023-04-09 21:42 被阅读0次

ATAC-seq 专题 | 研究热点
Week26 — 人类原发性肿瘤的染色质可及性图谱-03
Week25 — 人类原发性肿瘤的染色质可及性图谱-02
ATAC-seq测序原理（染色质可及性）
转录调控研究数据库推荐 | 你要找的ChIP-seq数据都在这里
数据库 | ATACdb：一个全面的人类染色质可开放性数据库
ATAC-seq(1) -- 实验原理
2021-11-28
scATAC:人类胎儿的染色质开放细胞图谱(0)
【ATAC-Seq 实战】一、分析流程

0. ATAC-seq能做什么？

ATAC-seq可用于：

得到在不同组织或不同条件下对应 可及性区域（NFR fragment）
得到 核小体位置（Mononucleosome fragments）
鉴定重要转录因子和生成 转录因子结合区域的特征(footprint)
生成 表观基因组图谱（peaks）

NFR fragments：开放染色质中两个核小体之间的Linker DNA片段；Mononucleosome fragment：核小体单体上结合的DNA片段；peaks：fragment组成的峰；footprint：转录因子足迹

ATAC-seq分析流程概览

ATAC-seq分析流程概览

1. ATAC-seq数据比对后质控

本文掠过 碱基质控 -->mapping-->序列筛选（去duplicated reads 和去除线粒体基因组）的步骤

1.1 插入片段质控

插入片段大小的分布可以用来判断ATAC-seq实验的质量。插入片段大小的理论分布为：NFR fragments（<100 bp）、核小体单体（~200 bp）、核小体二聚体（~400 bp）和核小体三聚体（~600 bp），每个位置上都会有对应的特征性的峰分布（如下图）

横坐标-片段长度；纵坐标-标准化后的reads数；两个峰图都大体得在100pb, 200bp, 400bp, 600bp略有峰型（箭头标注）

1.2 TSS富集峰图

NFR的片段（下图：黑线实线）应该在基因的转录起始位点（TSS）周围富集，而核小体结合区域的片段（下图：红色虚线）应该在TSS处被形成低谷

NFR的片段--黑线实线；核小体结合区域的片段--红色虚线

2. Shifting reads

由于Tn5是以二聚体的方面结合到染色体上的，其跨度大致是9bp，在分析的时候便需要回补这个9bp的碱基差。具体的做法是将正链和负链，reads应分别偏移 +4 bp和 -5 bp，以便实现TF足迹和基序的碱基对相关分析。

3. Peak Calling

许多ChIP-seq数据的Peak calling软件可以用于ATAC-seq数据，而 ENCODE 项目 选择MACS2作为ATAC-seq的标准Peak calling软件。为了保持数据一致可对比，很多研究者也都采用MACS2软件。Peak calling的结果通常以bed格式或bdg格式进行展示。

ENCODE项目（Encyclopedia of DNA Elements，DNA元件百科全书）是一个由美国国家人类基因组研究所（NHGRI）在2003年9月发起的一项公共联合研究项目，旨在找出人类基因组中所有的功能组件。这是继完成 “人类基因组计划” 后国家人类基因组研究所开始的最重要的项目之一。

Peak Calling软件根据原理主要分为两大类：Count-based方法和Shaped-based方法。一般Count-based方法的软件更易于使用和解释结果。这些软件采用不同的统计方法比较目标区域和随机背景区域的reads分布形状。其中HMMRATAC是专门为ATAC-seq开发的软件，除了比较占用内存之外，其性能还是很不错的。

Peak calling软件汇总：Count-based方法的软件结果表现差异不大，但Shaped-based方法的软件结果与Count-based软件结果非常不同

4. Peak differential analysis

目前没有专门为ATAC-seq开发的差异peak分析软件。差异peak分析首先通过寻找候选区域（共有peak或根据bin划分的基因组），然后标准化后对这些区域内的片段进行计数，最后在相同坐标内与其他处理条件的样本进行统计学比较。

Peak differential analysis相关工具

5. Peak annotation

一般情况下，软件会关联Peak与 “距离其最近的基因” 或者 “调控元件” 来进行peak注释， HOMER、ChIPseeker、ChIPpeakAnno等软件都可以把peak分配到最近或重叠的基因、外显子、内含子、启动子、5'UTR、3’UTR和其他基因组功能区。随后可以用GO、KEGG、Reactome等数据库做peak关联基因功能富集分析。

6. Motif 相关分析

开放的染色质区域一般可以结合特定的转录因子进而影响转录过程，转录因子识别的DNA序列即为motif。对motif的分析包括 motif富集分析 和 转录因子footprint分析。

6.1 motif富集分析

目前适用最普遍的motif数据库是JASPAR数据库，其中收录了很多物种的motif数据。
首先获得每个peak区域里的motif位置和频率，然后与随机背景或另一种条件的背景进行比较，最后得到motif富集的结果。

6.2 转录因子footprint分析

转录因子footprit 是指一个转录因子结合在DNA上，阻止Tn5酶切割，在染色质开放区域留下一个相对缺失的位置。
目前该分析需要解决的3个问题：
（1）建库时Tn5酶切会产生9bp的粘性末端切口，经过末端修复补齐后，原始reads在预处理时经过移位才可以准确检测到footprint（前面介绍的软件已经解决）
（2）Tn5酶切具有5‘端偏好性
（3）某些瞬时结合的转录因子footprint信号比较弱

目前转录因子footprint分析根据算法分为两类： de novo 和 motif-centric

de novo：该类型的软件需要通过理论计算来鉴别转录因子的footprint信息，并且消除Tn5酶切时的5’偏好性。目前只有HINT-ATAC可以处理ATAC-seq数据特有的偏好性。该方法在一些低质量和新发现的一些motif上具有优势。
Motif-centric：此类方法主要关注已知TF的结合位点，主要软件有MILLIPEDE、DeFCoM等。联合ChIP-seq数据的Motif-centric方法在footprint分析上优于de nove的方法，但是这些ChIP-seq数据来源于特定的转录因子和特定的细胞类型，通用性并不强。

Postscript： ATAC-seq数据可以通过联合分析RNA-seq数据来发现哪些差异表达的基因是受染色质可及性调控的，进一步可以推测这些差异表达的基因哪些是受开放染色质中具有motif和footprint的转录因子调控的，因此ATAC-seq与RNA-seq的联合分析有助于破译基因调控网络和细胞异质性。

参考链接：https://www.jianshu.com/p/77462a146e29
参考文献：From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis