UMI-tools

作者: 夕颜00 | 来源:发表于2021-03-29 16:38 被阅读0次
    image

    首先来看一下这款软件的功能概况:

    Step Inputs Output
    Find Cell barcode whitelist Read 1 fastq whitelist.txt
    Extract CB/UMIs and filter CBs R1 + R2 fastqs + whitelist.txt extracted fastqs
    Map reads extracted fastqs BAM
    Assign reads to genes BAM + transcriptome GTF BAM
    Count unique reads per genes per cell BAM Counts.txt

    软件安装有以下三种方式:

    #第一种
    $ conda install -c bioconda -c conda-forge umi_tools
    
    #第二种
    $ pip install umi_tools
    
    #第三种
    $ unzip 1.0.0.zip
    $ cd UMI-tools-1.0.0
    $ python setup.py install --user
    
    

    具体使用步骤:

    1、提取cell barcode白名单

    whitelist 命令会从原始数据种提取去可能的cell barcode。通常情况下,10X的barcode长度为16nt,umi长度为12nt;Drop-seq的barcode长度为12nt,umi长度为8nt。示例代码如下:

    #10X
    umi_tools whitelist --stdin hgmm_100_R1.fastq.gz \  
                        --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNNNN \ 
                        --set-cell-number=100 \    
                        --log2stderr > whitelist.txt
    
    #BD
    umi_tools whitelist --stdin ${fastq} \
            --extract-method=regex \
            --bc-pattern="(?P<cell_1>.{9})(?P<discard_1>.{12})(?P<cell_2>.{9})(?P<discard_2>.{13})(?P<cell_3>.{9})(?P<umi_1>.{8})(?<plotT>TTTTTTTT){s<=2}.*" \
            --expect-cells=10000  --plot-prefix=true2 --log2stderr --subset-reads=100000000 \
            --knee-method=density --allow-threshold-error > whitelist.txt
    

    常用参数解释
    --stdin:指定输入文件或者标准输入。
    --plot-prefix:指定QC统计图的前缀,可用于判断细胞数阈值设置是否合理。
    --bc-pattern:指定cell barcode和umi的位置,默认情况下,他们位于序列的5'端,否则可用--3prime参数改变。cell barcode用同等数量的字符"C"表示;umi用同等数量的字符"N"表示。
    --set-cell-number:设置检测到的cell barcode数量,若事先知道数量可设定,否则省略软件会自动判断(结合QC图判读阈值是否合理,若不合理可人为设定阈值重新分析)。
    --expect-cells=200:设置检测到的cell barcode数据上限,该值是根据捕获效率预估得到(一般10X捕获效率不低于10%),结合QC图判断阈值是否合理,若不合理可人为设定阈值重新分析。
    --stdout/-S:指定输出barcode结果到文件,log信息到还是标准输出。
    --stdlog/-L:指定log信息到文件,barcode结果还是到标准输出。
    --log2stderr:指定log信息到标准错误输出,barcode结果还是到标准输出。
    -v 0:关闭log信息的输出。

    结果文件解释:
    whitelist生成的结果文件包含四列:1、可接受的cell barcode;2、与可接受的barcode距离相差1的barcode;3、第一列barcode的umi数;4、第2列barcode的umi数

    结果文件格式如下:

    AAAGATGAGAAACGAG AAAAATGAGAAACGAG,AAACATGAGAAACGAG,... 53122 4,6,...
    AAAGCAAGTACCTACA AAAACAAGTACCTACA,AAACCAAGTACCTACA,... 36255 2,3,...
    AACACGTCAGCGTAAG AAAACGTCAGCGTAAG,AACAAGTCAGCGTAAG,... 53133 4,11,...
    
    

    2、提取barcode和过滤reads

    extract命令会从fastq文件中提取包含可接受barcode的reads,默认情况下extract命令会忽略umi的reads质量情况而不做处理。示例代码如下:

    umi_tools extract --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNN \
                      --stdin hgmm_100_R1.fastq.gz \
                      --stdout hgmm_100_R1_extracted.fastq.gz \
                      --read2-in hgmm_100_R2.fastq.gz \
                      --read2-out=hgmm_100_R2_extracted.fastq.gz \
                      --filter-cell-barcode \
                      --whitelist=whitelist.txt
    
    

    常用参数解释:
    --bc-pattern:指定cell barcode和umi的位置,同whilelist。
    --stdin:指定输入文件或者标准输入,同whilelist。
    --stdout:指定read1的输出文件。
    --read2-in:指定read2的输入文件,即基因表达的原始reads文件。
    --read2-out:指定read2的输出文件。
    --read2-stdout:设置read2的输出到标准输出,同时不会生成提取后read1文件。
    --filter-cell-barcode:指定只提取包含可接受barcoded的reads。
    --error-correct-cell:指定提取包含与可接受barcode汉明距离相差1的barcode的reads。
    --whitelist:barcode白名单文件。
    --quality-filter-threshold=[FILTER]:设定通过阈值来过滤umi的read,低于阈值的umi会被丢弃。
    --quality-filter-mask=[FILTER]:设置一个阈值来把umi reads中低于阈值的碱基替换为"N"。

    3、比对
    使用STAR软件来将reads比对到参考基因组。示例代码如下:

    $ STAR --runThreadN 4 \
           --genomeDir hg38_noalt_junc85_99.dir \
           --readFilesIn hgmm_100_R2_extracted.fastq.gz \
           --readFilesCommand zcat \
           --outFilterMultimapNmax 1 \
           --outSAMtype BAM SortedByCoordinate
    
    

    4、比对到基因
    使用软件featureCounts确定每一条read比对到基因的位置,会生成一个新的包含每条read回帖到基因位置的bam文件,该软件来自于Subread软件包,下载时应选择版本大于1.5.3的,subread链接:https://sourceforge.net/projects/subread/files/subread-2.0.1/。示例代码如下:

    $ featureCounts -a geneset.gtf -o gene_assigned -R BAM Aligned.sortedByCoord.out.bam -T 4
    
    

    featureCounts生成的bam文件没有排序,需要用samtools排序并建索引方便后续使用。示例代码如下:

    $ samtools sort Aligned.sortedByCoord.out.bam.featureCounts.bam -o assigned_sorted.bam
    $ samtools index assigned_sorted.bam
    
    

    5、分子计数
    count命令来完成给每个细胞中的每个基因计数原始分子数。示例代码如下:

    $ umi_tools count --per-gene --gene-tag=XT --assigned-status-tag=XS --per-cell -I assigned_sorted.bam -S counts.tsv.gz
    
    

    常用参数解释:
    --per-gene:指定给每个基因统计umi数。
    --gene-tag=XT:指定基因标记。
    --assigned-status-tag=XS:指定基因标记 。
    --per-cell:指定给每个细胞统计umi数。
    --skip-tags-regex:指定跳过的标记,默认值为^[__|Unassigned]。
    --wide-format-cell-counts:设置输出结果的格式为宽矩阵,即行为基因,列为细胞。

    默认结果格式如下:

    $ zcat counts.tsv.gz | head
    gene cell count
    ENSG00000000003 AAAGATGAGAAACGAG 3
    ENSG00000000003 AACTCTTGTTCTGAAC 4
    ENSG00000000003 ACACCGGGTACGACCC 2
    ENSG00000000003 ACACTGAGTCGGGTCT 5
    ENSG00000000003 ACTATCTCAAGGTGTG 2
    
    

    最后

    官网链接:https://umi-tools.readthedocs.io/en/latest/index.html

    转载来自:
    作者:生信店小二
    链接:https://www.jianshu.com/p/d4d7d0fab004
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    相关文章

      网友评论

        本文标题:UMI-tools

        本文链接:https://www.haomeiwen.com/subject/tpmbhltx.html