美文网首页生物信息学重测序及基因组群体遗传学
利用重测序数据Call SNP,并尝试构建遗传图谱

利用重测序数据Call SNP,并尝试构建遗传图谱

作者: IANMOONE | 来源:发表于2018-11-05 22:57 被阅读59次

    #构建ref genome index file 

    bwa index genome.fasta genome


    vim sam_file.sh

    #!/usr/bin/env bash

    for i in {s1,d1,fuben,muben}

    do

    #将重测序的clean data 回帖到参考基因组上

    bwa mem -t 28 -M ./data/genome.fasta ./data/${i}_1.fq ./data/${i}_2.fq >./${i}/${i}.sam

    #转换为bam文件

    samtools view -@ 28 -S -b  ./${i}/${i}.sam >./${i}/${i}.bam

    #统计比对结果

    samtools flagstat ./${i}/${i}.bam >./${i}/${i}.log

    #进行sort

    samtools sort -@ 28 ./${i}/${i}.bam ./${i}/${i}.sort

    done


    nohup bash sam_file.sh &

    #使用GATK4 call variants

    vim GATK.sh

    #!/usr/bin/bash

    for i in {s1,d1,fuben,muben}

    do

    #将sort后的bam文件加上head信息

    java -jar /biosoftware/picard-tools-1.134/picard.jar AddOrReplaceReadGroups I=${i}/${i}.sort.bam O=${i}/${i}_picard.bam SO=coordinate ID=${i} LB=${i} SM=${i} PL=illumina PU=run

    #建立 bam索引和参考基因组的库文件

    samtools index ${i}/${i}_picard.bam

    java -jar /biosoftware/picard-tools-1.134/picard.jar CreateSequenceDictionary R=data/assembly.fasta O=data/assembly.dict

    samtools faidx data/assembly.fasta

    #过量扩增的reads并不是基因组自身固有序列,不能作为变异检测的证据,因此,要尽量去除这些由PCR扩增所形成的duplicates

    java -jar /biosoftware/picard-tools-1.134/picard.jar MarkDuplicates I=./${i}/${i}_picard.bam O=./${i}/${i}.dedup.bam CREATE_INDEX=true VALIDATION_STRINGENCY=SILENT M=./${i}/${i}.metrics

    #把所有的样本的bam文件都用HaplotypeCaller的GVCF模式分别分析变异

    /data2/yanxu2016/gatk-4.0.0.0/gatk  --java-options -Xmx60g HaplotypeCaller  --emit-ref-confidence GVCF -R ./data/assembly.fasta -I ./${i}/${i}.dedup.bam -O ./gatk_out/${i}.HC.g.vcf

    done

    #合并gvcf

    /data2/yanxu2016/gatk-4.0.0.0/gatk  --java-options -Xmx60g CombineGVCFs  -V ./gatk_out/fuben.HC.g.vcf -V ./gatk_out/muben.HC.g.vcf -V ./gatk_out/d1.HC.g.vcf -V ./gatk_out/s1.HC.g.vcf -R ./data/assembly.fasta -O ./gatk_out/Reseq_all_fmds.HC.vcf

    #进行分型

    /data2/yanxu2016/gatk-4.0.0.0/gatk  --java-options -Xmx60g GenotypeGVCFs -V Reseq_all_dfsm.HC.vcf -R ../data/assembly.fasta -O all_Reseq_genetype.HC.vcf

    #使用samtools call variants 综合GATK和samtools的结果获得可靠变异

    #之前安装的是1.1版本的samtools,1.1版本缺少对基因型信息统计的部分信息的筛选功能,所以重新装1.9版本,总是报错,查到github的project页面发现有些库不全。

    https://github.com/samtools/samtools/blob/develop/INSTALL

    ./samtools-1.9/samtools mpileup -t AD,ADF,ADR,DP,SP -ugf ../data/assembly.fasta ../fuben/fuben.dedup.bam ../muben/muben.dedup.bam ../d1/d1.dedup.bam ../s1/s1.dedup.bam | bcftools call -vm > variants.samtools.raw1.vcf

    未完待续

    相关文章

      网友评论

        本文标题:利用重测序数据Call SNP,并尝试构建遗传图谱

        本文链接:https://www.haomeiwen.com/subject/tborettx.html