Week24 — 人类原发性肿瘤的染色质可及性图谱-01: 主要回顾了ATAC-seq方法的原理和优点,并与其他研究染色质可及性方法的比较,然后介绍了这篇文章的主要结果和亮点以及提供的数据资源。
Week25 — 人类原发性肿瘤的染色质可及性图谱-02:介绍了文章思路和主要结果。
这篇文章主要了解下补充材料的分析方法。
1. ATAC-seq数据预处理和比对
ATAC-seq预处理和比对使用的是PEPATAC pipeline(http://code.databio.org/PEPATAC/)。
PEPATAC pipeline是一个打包的ATAC-seq数据预处理流程,包括对原始数据的去接头、比对、call peak、创建bigwig、TSS富集文件等其他一些统计结果文件。
输出的图如:
具体包括:
- Bowtie2 比对,移除比对到chrM和重复序列
-k 1 -D 20 -R 3 -N 1 -L 20 -i S,1,0.50 -X 2000 –rg-id # remove repeats的参数
--very-sensitive -X 2000 --rg-id # bowtie2参数
- 排序去除重复
使用Picard 的MarkDuplicates去除重复。
-f 2 -q 10 -b -@ 20 # 排序参数
VALIDATION_STRINGENCY =LENIENT REMOVE_DUPLICATES = true #去重参数
2. call peaks(MACS2)
这里他们选用固定宽度(fixed-width)的peaks,优点有:1)对大量的peaks进行counts和motif分析时可以减小误差;2)对于大量数据集的可以合并峰得到一致性的peaks;
使用的是macs2 call peaks,参数如下:
--shift -75 --extsize 150 --nomodel --call-summits --nolambda --keep-dup all -p 0.01
同时根据hg38 blacklist过滤,并除去染色体两端以外的峰。
一个样本的overlaps他们是通过迭代移除的方法,首先保留最显著的peak,然后任何与最显著peak有直接overlap的peaks都被移除;接着对另一个最显著性的peak进行相同的操作,最终保留所有更显著的peaks,移除与其有直接overlaps的peaks。
3. ATAC-seq数据分析—— 构建counts矩阵并标准化
为了获得每个峰中独立的Tn5插入的数量,首先用RRsamtools “scanbam”对BAM文件矫正Tn5偏移量(“+” stranded +4 bp, “-” stranded -5 bp)并存入Genomic Ranges对象。然后用“countOverlaps”对矫正后的插入位点计数,最终得到 562,709 x 796 counts 矩阵。
counts矩阵用edgeR “cpm(matrix , log = TRUE,prior.count = 5)”标准化,然后用R中的preprocessCore’s “normalize.quantiles”
做分位数标准化。
4. ATAC-seq data analysis – Transcription factor footprinting
TF足迹的分析:
一是参考了文章doi: 10.1016/j.celrep.2017.05.003:
- 首先确定peaks内的TF motif的位置,用pan-cancer peak set 结合CIS-BP motifs计算motif的位置,
motifmatchr “matchMotifs(positions = “out”)
- 然后计算
flanking accessibility
和footprint depth
- 最后确定哪个TF的足迹与基因的表达是显著相关
通过将flanking accessibility or footprint depth与250个随机的TFs的关联分析生成零均值和标准偏差。
5. ATAC-seq data analysis – chromVAR for transcription factor activity
除了足迹分析,他们还用chromVAR
包评估TF的活动,首先用chromVAR deviations
函数计算GC矫正偏差,然后将矫正偏差与motif相关的TFs关联,最后5000个转录因子基序和非相关转录因子基因的RNA-seq基因表达之间的随机相关性,以计算每个相关性的FDR。具体参考:Week4— chromVAR:预测染色质可及性相关的转录因子
6. ATAC-seq data analysis – chromVAR for GWAS enrichment
- 首先从GWAS catalog(https://www.ebi.ac.uk/gwas/docs/file-downloads)下载SNPs位点,过滤和16种癌症类型相关的SNPs位点。
- 加上连锁不平衡(Linkage Disequilibrium ,LD) 信息( r 2 > 0.8)
LD信息从haploreg 网站下载 http://archive.broadinstitute.org/mammals/haploreg/data/ - 移走位于exons或UTR区域的SNPs位点,得到最后的SNP列表
- 将最后的SNP列表与远端 binarization peak 集overlap,得到一个二元匹配矩阵。每列代表不同癌症癌症类型的GWAS SNP,每行代表一个peak,这个peak来自远端 binarization peak 集。
- 用chromVAR
deviations
函数计算GC矫正偏差 - 用
PNAMER
将“偏差分数”转换为p值,并使用Bejimi-HocHBG程序调整
网友评论