美文网首页单细胞转录组基因组学
UMI 去重矫正 —— ConsensusCruncher

UMI 去重矫正 —— ConsensusCruncher

作者: 名本无名 | 来源:发表于2020-12-04 19:14 被阅读0次

    介绍

    ConsensusCruncher 是一个抑制二代测序数据错误率的工具

    通过唯一标识符 unique molecular identifiers(UMI) 对同一 DNA 模板上的 read 进行去重

    原理

    1. 模型

    model

    ConsensusCruncher 有两个 model

    1. fastq2bam

      该模块用于从 FASTQ 文件中提取 UMI ,然后利用 BWA 进行序列比对

    2. consensus

      先对 read 进行去重,生成单链一致序列(SSCS)及未去重序列,然后进行单链矫正。

      分别将去重后的正链 read1 和负链的 read2, 正链 read2 和负链的 read1 进行配对

      矫正不匹配的碱基,赋值为 N

    image.png
    • 对同一模板,分别以 fwd_R1、rev_R2、fwd_R2、rev_R1 的方式进行分组去重
    • 去重方法基于碱基频率,频率低于阈值赋值为 N
    • 去重之后,以 fwd_R1、fwd_R2 配对,rev_R2、rev_R1 配对进行矫正

    安装

    1. 依赖

    这个 pipeline 依赖下面的软件

    Program Version Purpose
    Python 3.5.1 运行主程序
    BWA 0.7.15 read 比对
    Samtools 1.3.1 sort/index bam

    其中 python 的包可以通过如下命令进行安装

    pip install -r requirements.txt
    

    2. 命令行参数

    2.1 fastq2bam

    --fastq1 FASTQ1       FASTQ R1 文件
    --fastq2 FASTQ2       FASTQ R2 文件
    -o OUTPUT, --output OUTPUT
                          输出文件目录,未指定会新建
    -n FILENAME, --name FILENAME
                          输出文件名
    -b BWA, --bwa BWA     bwa 软件安装目录
    -r REF, --ref REF     参考基因组
    -s SAMTOOLS, --samtools SAMTOOLS
                          samtools 软件安装目录
    -p PATTERN, --bpattern PATTERN
                          barcode 的模式
    -l LIST, --blist LIST
                          barcodes 列表文件(txt 文件,每行代表一个唯一的 barcode)
    

    2.1 ConsensusCruncher

    -h, --help            帮助信息
    -i BAM, --input BAM   输入的 BAM 文件 barcodes 已经提取到 header
    -o OUTPUT, --output OUTPUT
                          输出的目录
    -s SAMTOOLS, --samtools SAMTOOLS
                          samtools 软件安装目录 
    --scorrect {True,False}
                          单链矫正, default: True.
    -b BEDFILE, --bedfile bed 文件
    --cutoff CUTOFF       去重时碱基所占比例阈值, default: 0.7 (70%),
                          低于阈值的位置碱基赋值为 N
    --cleanup {True,False}
                          删除中间结果文件
    

    运行示例

    脚本

    PATH="工作目录"
    BWA="bwa 软件路径"
    INDEX="参考基因组 fastq 文件"
    SAMTOOLS="samtools 软件路径"
    
    python ConsensusCruncher.py fastq2bam \
    --fastq1 $PATH/test/fastq/R1.fastq \
    --FASTQ2 $PATH/test/fastq/R2.fastq \
    -o $PATH/test \
    -b $BWA \
    -r $INEDEX \
    -s $SAMTOOLS \
    -bpattern NNT
    

    相关文章

      网友评论

        本文标题:UMI 去重矫正 —— ConsensusCruncher

        本文链接:https://www.haomeiwen.com/subject/hmbiwktx.html