美文网首页生信分析流程ATACSeq 开放染色质分析生物信息
Week26 — 人类原发性肿瘤的染色质可及性图谱-03

Week26 — 人类原发性肿瘤的染色质可及性图谱-03

作者: 六六_ryx | 来源:发表于2018-12-09 20:48 被阅读13次

    Week24 — 人类原发性肿瘤的染色质可及性图谱-01: 主要回顾了ATAC-seq方法的原理和优点,并与其他研究染色质可及性方法的比较,然后介绍了这篇文章的主要结果和亮点以及提供的数据资源。
    Week25 — 人类原发性肿瘤的染色质可及性图谱-02:介绍了文章思路和主要结果。
    这篇文章主要了解下补充材料的分析方法。


    1. ATAC-seq数据预处理和比对

    ATAC-seq预处理和比对使用的是PEPATAC pipeline(http://code.databio.org/PEPATAC/)。
    PEPATAC pipeline是一个打包的ATAC-seq数据预处理流程,包括对原始数据的去接头、比对、call peak、创建bigwig、TSS富集文件等其他一些统计结果文件。
    输出的图如:


    具体包括:
    • Bowtie2 比对,移除比对到chrM和重复序列
    -k 1 -D 20 -R 3 -N 1 -L 20 -i S,1,0.50 -X 2000 –rg-id # remove repeats的参数
    --very-sensitive -X 2000 --rg-id # bowtie2参数
    
    • 排序去除重复
      使用Picard 的MarkDuplicates去除重复。
    -f 2 -q 10 -b -@ 20 # 排序参数
    VALIDATION_STRINGENCY =LENIENT REMOVE_DUPLICATES = true #去重参数
    

    2. call peaks(MACS2)

    这里他们选用固定宽度(fixed-width)的peaks,优点有:1)对大量的peaks进行counts和motif分析时可以减小误差;2)对于大量数据集的可以合并峰得到一致性的peaks;
    使用的是macs2 call peaks,参数如下:

    --shift -75 --extsize 150 --nomodel --call-summits --nolambda --keep-dup all -p 0.01
    

    同时根据hg38 blacklist过滤,并除去染色体两端以外的峰。
    一个样本的overlaps他们是通过迭代移除的方法,首先保留最显著的peak,然后任何与最显著peak有直接overlap的peaks都被移除;接着对另一个最显著性的peak进行相同的操作,最终保留所有更显著的peaks,移除与其有直接overlaps的peaks。

    3. ATAC-seq数据分析—— 构建counts矩阵并标准化

    为了获得每个峰中独立的Tn5插入的数量,首先用RRsamtools “scanbam”对BAM文件矫正Tn5偏移量(“+” stranded +4 bp, “-” stranded -5 bp)并存入Genomic Ranges对象。然后用“countOverlaps”对矫正后的插入位点计数,最终得到 562,709 x 796 counts 矩阵。
    counts矩阵用edgeR “cpm(matrix , log = TRUE,prior.count = 5)”标准化,然后用R中的preprocessCore’s “normalize.quantiles”做分位数标准化。

    4. ATAC-seq data analysis – Transcription factor footprinting

    TF足迹的分析:
    一是参考了文章doi: 10.1016/j.celrep.2017.05.003:

    • 首先确定peaks内的TF motif的位置,用pan-cancer peak set 结合CIS-BP motifs计算motif的位置,motifmatchr “matchMotifs(positions = “out”)
    • 然后计算flanking accessibilityfootprint depth
    • 最后确定哪个TF的足迹与基因的表达是显著相关
      通过将flanking accessibility or footprint depth与250个随机的TFs的关联分析生成零均值和标准偏差。

    5. ATAC-seq data analysis – chromVAR for transcription factor activity

    除了足迹分析,他们还用chromVAR包评估TF的活动,首先用chromVAR deviations函数计算GC矫正偏差,然后将矫正偏差与motif相关的TFs关联,最后5000个转录因子基序和非相关转录因子基因的RNA-seq基因表达之间的随机相关性,以计算每个相关性的FDR。具体参考:Week4— chromVAR:预测染色质可及性相关的转录因子

    6. ATAC-seq data analysis – chromVAR for GWAS enrichment

    • 首先从GWAS catalog(https://www.ebi.ac.uk/gwas/docs/file-downloads)下载SNPs位点,过滤和16种癌症类型相关的SNPs位点。
    • 加上连锁不平衡(Linkage Disequilibrium ,LD) 信息( r 2 > 0.8)
      LD信息从haploreg 网站下载 http://archive.broadinstitute.org/mammals/haploreg/data/
    • 移走位于exons或UTR区域的SNPs位点,得到最后的SNP列表
    • 将最后的SNP列表与远端 binarization peak 集overlap,得到一个二元匹配矩阵。每列代表不同癌症癌症类型的GWAS SNP,每行代表一个peak,这个peak来自远端 binarization peak 集。
    • 用chromVAR deviations函数计算GC矫正偏差
    • PNAMER将“偏差分数”转换为p值,并使用Bejimi-HocHBG程序调整

    相关文章

      网友评论

        本文标题:Week26 — 人类原发性肿瘤的染色质可及性图谱-03

        本文链接:https://www.haomeiwen.com/subject/krrnfqtx.html