关于chipseq,没有好值得介绍了,但是这篇综述还是值得一读,总结最近几年chipseq分析的原则,目前的中文好像没有什么介绍原则和一些分析指标的文章,直接都去上手了.(虽然后来搜了一下,还是有人已经翻译为中文过,不过也算是自己的学习一部分吧)
Methods for ChIP-seq analysis: A practical workflow and advanced applications - ScienceDirect
![](https://img.haomeiwen.com/i23627621/d0c9709eca6ea8a8.png)
五种核心的组蛋白marker
Five “core histone marks”, proposed by Roadmap Epigenomics Consortium , are widely used for ChIP-seq analysis:(五种核心的组蛋白marker)
-
H3 lysine 4 monomethylation (H3K4me1) or H3 lysine 27 acetylation (H3K27ac), which is associated with enhancer regions;
-
H3 lysine 4 trimethylation (H3K4me3), which is associated with promoter regions;
-
H3 lysine 36 trimethylation (H3K36me3), which is associated with transcribed regions in gene bodies;
-
H3 lysine 27 trimethylation (H3K27me3), which is associated with Polycomb repression; and
-
H3 lysine 9 trimethylation (H3K9me3), which is associated with heterochromatin.
ChIP-seq 分析组蛋白修饰的技术考虑
ChIP 分析的可靠性取决于抗体质量,包括特异性和信噪比( signal-to-noise ratio ,简称S/N)。由于来自非特异性抗体-DNA 结合的假阳性富集位点可能会混淆分析,意外的 ChIP-seq 结果应该使用多种抗体进行验证
虽然大多数 ChIP-seq 工具被设计用于位于特定基因组位置(如转录起始位点(TSSs))的尖峰,但是一些组蛋白修饰与大的基因组结构域相关,导致广泛分布的富集区域。H3K27me3和 H3K36me3富集分布在几百个千碱基中,而 H3K9me3峰往往扩大到几兆碱基。增强子标记 H3K27ac 和 H3K4me1产生尖峰,但有时构建被称为“超级增强子”的广泛富集区域。H3K4me3启动子标记也可以覆盖小鼠卵母细胞中的广泛结构域。这种峰形和宽度的变化影响最佳计算工具的选择。例如,ROSE 专门设计用于检测超级增强子位点,它将多个增强子位点聚集在一起。Music可以估计需要研究的样本峰值的平均宽度。
2.4 比对
使用诸如 Bowtie 、 Bowtie2或 BWA 之类的工具比对FASTQ 或 CSFSATQ 格式)。Bowtie2和 BWA 可以通过间隙比对考虑 indel (插入和删除) ,这适用于长读长和/或双端测序。有几种用于映射文件的输出格式,例如 SAM、 BAM、 CRAM 和 tagAlign。虽然 BAM 格式是迄今为止使用最广泛的格式,但是更节省空间的 CRAM 格式正在成熟,可能会成为下一个标准( https://www.ga4gh.org/CRAM/)。对齐后,映射到相同基因组位置的读取被过滤为冗余读取,剩余的非冗余读取用于分析。
2.5. Peak calling
Peak-calling步骤识别基因组中显著富集的位点(峰)。Peak-calling的结果通常以 BED 格式返回。尽管 ChIP-seq 峰没有链信息,但是当聚焦于 TSS 周围富集的组蛋白标记时,可以根据基因信息进行估计。虽然 MACS2是最常用的峰值调用工具,但最近开发了许多Peak-calling调用工具。然而,没有工具可以达到100% 的准确性。因此,一个实际的策略是获得大量具有包含真正的阳性和噪声的松弛阈值的peak,然后使用另一种方法提取亚组以提高特异性,例如使用Irreproducible Discovery Rate (IDR)在生物学重复中选择一致的信号。
2.6. ChIP-seq 数据质量评估
ChIP-seq 样本的质量检查对于判断测序数据是否高质量和适合进一步分析至关重要。现在有许多各种定量的质量控制方法,其中,特别重要的指标是
-
Mapping ratio:反映读取质量和比例的测序read是来自真正的基因组 DNA。例如,由 Illumina HiSeq System (例如 Hiseq2500)测序的样品的映射比率应该超过80% 。例外是非 DNA 结合蛋白比如 IgG 的样本,它通常具有较低的比对率(something 60%)。
-
Read depth (the number of nonredundant mapped reads):足够的测序深度取决于基因组大小和抗体的 S/N 比率。ENCODE 联盟建议至少1000万个uniq read作为分析人类样本锐峰模式峰值的最小值。广泛的组蛋白标记通常具有较弱的信噪比,并且需要更多的读取(例如,人类 > 4000万)作为峰值调用的实际最小值。
-
Library complexity (the proportion of nonredundant reads):它的范围从0到1.0,ENCODE 联盟建议1000万个映射读取的复杂度大于0.8。较低的值(小于0.6)表明来自少量初始 DNA 的过度 PCR 扩增。
-
The normalized strand coefficient 归一化链系数(NSC, obtained by SSP):使用 > 1,000个公开可用的 多个物种的ChIP-seq 数据集进行深入验证表明,推荐的阈值分别为 NSC > 5.0和 NSC > 1.5,分别为sharp and broad 的标记。输入样本的信噪比应该较低,因此 NSC 值应该小于2.0。
-
Background uniformity (Bu):Bu 反映了背景区域的读分布偏差,范围从0到1.0。低值(小于0.8)表明读取分布比预期的更集中或更有偏见,导致在获得的峰值中出现许多假阳性[35]。对于具有广泛拷贝数变异的基因组(例如 MCF-7细胞) ,放松的阈值(> 0.6)是可取的。
-
GC summit bias:反映了免疫沉淀法和 PCR 扩增过程中的偏差。一般来说,典型 ChIP-seq 数据的 GC 峰与参考基因组相似(例如,人类的 something 50% )。由于 PCR 扩增偏倚和/或来自与 CpG 岛相关的“hyper-ChIPable”区域的假阳性峰,意外的 GC 富集峰(例如人类超过60%)经常表现出来。
图2显示了来自 ROADMAP 项目的127种细胞类型中6种组蛋白修饰的 QC 指标,包括尖峰(H3K27ac,H3K4me1和 H3K4me3)和宽峰(H3K27me3,H3K36me3和 H3K9me3)以及输入样品。虽然峰值数可以作为 ChIP 实验成功的一个初始指标,但是峰值数不适合于 ChIP 样本之间的比较,因为它强烈地依赖于峰值呼叫阈值。此外,一个单一的富集区域往往可以划分为多个次区域,特别是在广泛的标志。例如,H3K4me3具有最低的峰数分布,但是最大的 SSP-NSC 分布,表明较少数量的较强的峰(图2A)。图2A 还显示有少数样品富含 GC (> 60%)或 Bu 评分低(< 0.8)。这一结果表明,从样品中获得的峰值不太可靠,在比较分析中应谨慎处理。最后,使用基于读分布的相关热图进行样本间比较(图2B)是识别其他可疑样本的好方法,例如错误标记的样本或其他人为引入的错误。
![](https://img.haomeiwen.com/i23627621/ae749d111d4fdd92.png)
2.7 可视化
已经为 ChIP-seq 数据开发了各种统计方法和质量指标,读取分布的视觉检查对于直观地评估和分析所获得的数据是有效的,例如检测来自超级 ChIPable 区域的可疑峰值。为此,可以使用交互式可视化工具,如 IntegrationgenomeViewer (IGV)或 [SeqMonk] ( https://www.bioinformatics.babraham.ac.uk/projects/SeqMonk/)。几个 Web 服务器(例如 UCSC 基因组浏览器和 WashU EPigenome Browser )可以将获得的 ChIP-seq 结果与其他注释数据集成,例如进化保守性和各种组织中的基因表达。
2.8比较分析的标准化
在比较分析之前,Read normalization对于减轻技术差异是必不可少的。通常使用Simple total read normalization,它将不同样本的read数缩放为相同的值。基本的假设是,样本之间read树的差异足够小于总read数。这个假设并不总是令人满意,因此,已经开发了几种方法来鉴定两种条件之间的差异富集区域,其中一些是专门为组蛋白修饰数据设计的。由于潜在的统计假设,所获得的结果在不同的工具之间差异很大,因此方法的选择将对结果产生关键的影响。
超过两组的定量比较更加复杂。当样本之间的预期 S/N 值相似时,可以使用统计方法进行差异基因表达分析 。当样本中最常见峰的 S/N 相似时(例如,所有样本的单一抗体),也可以使用分位数归一化 。如果样品之间的信噪比高度变化(例如,有刺激和没有刺激之间) ,考虑spike-in分析(也称为校准分析)。该方法是一种基于湿实验方法法的解决方案,在免疫沉淀之前或之后将来自不同物种的相同数量的 DNA 添加到所有样品中,并根据衍生read的数量估计权重系数。与仅限于相对差异的计算归一化方法相比,spike-in ChIP-seq 可以研究绝对水平差异。
然而,定量 ChIP-seq 比较仍然经常被多步骤样品制备引起的内在噪声和可变性所混淆,即使在标准化后也是如此。在这种情况下,可能需要简单的二元比较(识别常见或独特的峰),尽管在获得的结果中可能会出现一些假阳性/阴性。
2.9. 使用DROMPAplus的 ChIP-seq 分析
很明显这段是这篇文章作者的私货,但是软件看起来还可以
图3显示了由 DROMPAplus 产生的组蛋白修饰的标准化read分布。DROMPAplus是一个 ChIP-seq 分析工具,可以满足各种需求,包括质量检查,标准化,统计分析和多个 ChIP-seq 样本的可视化。DROMPA 可用于任何其基因组序列可用的物种,并已应用于人类,小鼠,鸡和酵母的各种 ChIP-seq 研究。它以传统的 PDF 格式输出可视化,这对许多用户来说是更好的,特别是当与其他没有很强的生物信息学背景的合作者共享结果时(例如,在云存储上) ,因为不需要额外的程序。
![](https://img.haomeiwen.com/i23627621/b85c933ec6f53acb.png)
图3。使用 DROMPAplus 可视化多个 ChIP-seq 样本。(A)从 Roadmap 表观基因组数据库获得的 E055(包皮成纤维细胞) ,E058(包皮角质形成细胞) ,E065(主动脉) ,E096(肺) ,E112(胸腺)和 E122(人脐静脉内皮细胞: HUVEC)细胞的sharp组蛋白标记(顶部)和broad标记(底部)的标准化read分布。两个组蛋白标记被描绘在一个不同颜色(绿色和橙色)的单一轨迹中。在 HUVEC 中,RNA Pol II 介导的染色质环(基于 ChIA-PET 数据)由拱形表示。(B)人7号染色体的五个核心组蛋白修饰(E122)的可视化。绘制了 ChIP/输入富集分布(100kb 窗口)、 GC 含量(500kb 窗口)和基因数(500kb 窗口)。ChIP/control > 1的 Windows 以红色突出显示。
DROMPAplus 有许多有价值的特性。首先,它接受各种输入映射文件格式,包括 CRAM。其次,DROMPAplus 可以在一行中可视化两个样品(图3A) ,其描述了read富集的共现(例如 H3K4me3和 H3K27ac)和排他性(例如 H3K27me3和 H3K36me3) ,从基于3C 的测定获得染色质环(见第3.2节)。第三,使用 SSP 自动估计单端读取的片段长度。第四,它是高度可定制的轨道高度,轴限制和显示功能。例如,该软件可以用线性或对数刻度突出显示 ChIP/输入富集区(图3B)。第五,DROMPAplus 可以支持峰值标准化和总读标准化。最后,它被完全用 C + + 重写,这比 C 更灵活,计算速度比 Python 和 R 更快。
2.10. Functional analysis
基序分析研究所谓的峰或特定表观基因组区域(例如增强子位点)固有的序列特异性,并估计鉴定区域内可能的转录因子结合位点。一般来说,基序分析方法可以分为两种类型:
- 从头de novo 基序发现,识别出现在大部分峰中的未知因素的潜在新的结合基序 ;
- 基序扫描 motif scanning,估计和排列所提供的 DNA 序列与数据库内所有已知规范基序的相似性。
ChIP-seq 峰也可用于功能富集分析。该分析将附近的基因二元标记或定量地排列为潜在靶标,并根据基因本体或 KEGG 途径对其进行分组
2.11染色质状态注释
染色质状态注释Chromatin-state annotation,也称为semi-automated genomic annotation半自动基因组注释(SAGA) ,使用无监督的机器学习方法,通过特征性表观基因组模式(如promoters, enhancers, transcribed regions, and repressed regions)对所有基因组区域进行分类。
获得的clusters被手动注释为染色质状态。典型的区域特异性分析(例如增强子分析)缩小了要研究的目标基因组区域。
相比之下,染色质状态注释分割基因组并使用隐马尔可夫模型或动态贝叶斯网络将染色质状态分配给全基因组区域。在这个分析中,生物学上的最佳状态数目是未知的,必须通过实验来确定。也就是说,在解释获得的clusters时,更多的丰富态会造成困难。事实上,许多状态可能不能捕获足够明显的表观遗传特征。因此,最多15个states可能是合适的。
获得的染色质状态进一步扩展到各种下游分析。例如,ChromDiff ,EpiCompare 和 ChromDet 跨多种细胞类型组合和聚类衍生的表观基因组景观,以探索组织或细胞类型特异性表观基因组区域。还采用概率聚类方法来捕获跨多个细胞系的染色质状态动力学或时间点。基于图的正则化(GBR)整合了染色质相互作用信息,用于染色质状态注释。生成的染色质状态信息然后被用来解释个体遗传变异和理解进化中的表观遗传变异。
除了本文作者的私货软件(其实不是那么好用,光是docker都要折腾半天(参考前文docker教程)外,做chipseq质控的重要软件就是Chipqc(当然还有其他的)
ChIPQC practical (bioinformatics-core-shared-training.github.io)
对ATAC-Seq/ChIP-seq的质量评估(二)——ChIPQC - 腾讯云开发者社区-腾讯云 (tencent.com)
网友评论