美文网首页
ATAC-seq 质控

ATAC-seq 质控

作者: 大吉岭猹 | 来源:发表于2020-05-29 09:43 被阅读0次

    1. 写在前面

    2. replicates

    • 2 个及以上生物学重复
    • 对于无法做生物学重复的样本至少 2 技术重复

    3. 总 reads 数

    • 单端 25 百万
    • 双端 50 百万
    • 去重、去线粒体

    4. 比对率

    • > 95%,可以低至 80%

    5. IDR 计算重复情况

    6. 文库复杂度

    7. peak 数量

    • The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
    • The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.

    8. nucleosome free region (NFR)

    • 目前没有找到教程,待补充

    9. 插入片段长度统计(单核小体峰)

    • 标准:在 147bp 以上,147*2bp 以下处有峰
    • 首先从 bam 文件中抓取插入片段长度信息
    cd align/
    samtools view WT.last.bam|cut -f9>wt_insert_length.txt
    
    • 然后读入 R 画 hist 图即可
    a=read.table("wt_insert_length.txt")
    hist(abs(a[,1])))
    
    • 数据质量不佳,200bp 的峰不够显著

    10. 计算 FRiP 值

    • 全称 Fraction of reads in peaks,即位于 peak 坐标范围内的 reads 占总 reads 的比例
    • 标准:FRiP >0.3,可以低至 0.2
    • 通过 shell 脚本计算
    cd callpeaks/
    ls *narrowPeak|while read id;
    do
    echo $id
    bed=../bed/$(basename $id "_peaks.narrowPeak").bed
    ls -lh $bed
    # a中哪些在b中
    ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
    totalReads=$(wc -l $bed|awk '{print $1}')
    echo $ReadsinPeaks $totalReads
    echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
    done
    
    • 输出
      • 3391770 25099448 FRiP: 13.51%
      • 7779551 30565190 FRiP: 25.45%
    • 视频中 Jimmy 老师认为应该使用去重和去线粒体之前的 bam 转出来的 bed 来计算 FRiP,这个有待进一步考证

    11. TSS 富集程度

    • 在衡量背景噪音水平上比 FRiP 更关键
    • 标准:
    • 教程待补充

    友情宣传

    相关文章

      网友评论

          本文标题:ATAC-seq 质控

          本文链接:https://www.haomeiwen.com/subject/ettxzhtx.html