美文网首页生信笔记
为小鼠(GRCm38) 构建 GATK resource bun

为小鼠(GRCm38) 构建 GATK resource bun

作者: 11的雾 | 来源:发表于2020-05-27 16:17 被阅读0次

    前提:
    众所周知,GATK 为人提供了 一些 boundle resource ,但是没有提供小鼠的资源。比如
    dbsnp, indel,这些都是需要自己准备的。
    而在跑BaseRecalibrator 时,--known-sites是必须项。那么可以下载这些信息,自己构建为GATK所适用的格式。

    下载:dbSNP GRCm38 VCF files (each chromosome is in a separate file):

    wget --recursive --no-parent --no-directories \
    --accept vcf*vcf.gz \
    ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/
    

    或者直接网页上下载所有的vcf 文件:http://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/

    PS:可以下载00-All.vcf.gz,就不需要合并,但是仍然需要修改染色体信息。

    然后解压后,修改染色体信息,将数字开始的变为以chr开始的。

    删除非染色体信息的vcf:vcf_chr_NotOn.vcf,等

    然后合并vcf,

    gatk MergeVcfs -I vcf_chr_10.vcf -I vcf_chr_14.vcf -I vcf_chr_18.vcf -I vcf_chr_3.vcf -I vcf_chr_7.vcf -I vcf_chr_11.vcf -I vcf_chr_15.vcf -I vcf_chr_19.vcf -I vcf_chr_4.vcf -I vcf_chr_8.vcf  -I vcf_chr_12.vcf -I vcf_chr_16.vcf -I vcf_chr_1.vcf -I vcf_chr_5.vcf -I vcf_chr_9.vcf  -I vcf_chr_13.vcf -I vcf_chr_17.vcf -I vcf_chr_2.vcf -I vcf_chr_6.vcf -I vcf_chr_MT.vcf -I vcf_chr_X.vcf -I vcf_chr_Y.vcf -O dbsnp.vcf.gz -R GCF_000001635.24.fa -D GCF_000001635.24.fa.dict
    
    如果-O设置为vcf.gz,则自动创建tbi为后缀的index。
    

    这里也要提供reference 的dict index 文件。如果没有的话可以用如下命令为reference 构建index:

    gatk CreateSequenceDictionary  -R GCF_000001635.24.fa -O GCF_000001635.24.fa.dict
    

    这里需要注意两点:

    1. 下载的vcf文件中header中的##reference=GCF_000001635.24,一定要存在该reference,就是说你用到的reference 文件名字一定要是header中的这个名字。GATK对header的要求比较严格。

    2. 下载的vcf文件中染色体的开始要和 基因组参考序列fasta文件的一致。

    一定要检查文件:

    下载并修改indel 文件:

    wget ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.indels.dbSNP142.normed.vcf.gz \
    -O mgp.v5.indels.vcf.gz
    

    Filter for passing variants with chr added:

    # adjust header
    
    zcat mgp.v5.indels.vcf.gz | head -1000 | grep "^#" | cut -f 1-8 \
    | grep -v "#contig" | grep -v "#source" \
    > mgp.v5.indels.pass.chr.vcf
    
    # keep only passing and adjust chromosome name
    
    zcat mgp.v5.indels.vcf.gz | grep -v "^#" | cut -f 1-8 \
    | grep -w "PASS" | sed 's/^\([0-9MXY]\)/chr\1/' \
    >> mgp.v5.indels.pass.chr.vcf
    

    sort

    gatk SortVcf  \
      -I mgp.v5.indels.pass.chr.vcf \
      -O mgp.v5.indels.pass.chr.sort.vcf \
      -R GCF_000001635.24.fa \
      -SD GCF_000001635.24.fa.dict
    

    That’s all.

    参考:https://github.com/igordot/genomics/blob/master/workflows/gatk-mouse-mm10.md

    相关文章

      网友评论

        本文标题:为小鼠(GRCm38) 构建 GATK resource bun

        本文链接:https://www.haomeiwen.com/subject/rjowahtx.html