美文网首页
【WES02】WES实战

【WES02】WES实战

作者: 呆呱呱 | 来源:发表于2020-12-16 00:01 被阅读0次

    WORKFLOW

    1.Quality control————FASTQC、MultiQc
    2.Reads mapping——BWA
    (3.Mapped reads processing)——RmDup
    4.Variants calling——— FreeBayes、
    5.Variants annotation and report———SnpEff、GEMINI load

    QUALITY CONTROL

    1.Inspect a raw sequence file

    一共6个样本(一家三口 双端测序)

    wget -b https://zenodo.org/record/3243160/files/father_R1.fq.gz
    wget -b https://zenodo.org/record/3243160/files/father_R2.fq.gz
    wget -b https://zenodo.org/record/3243160/files/mother_R1.fq.gz
    wget -b https://zenodo.org/record/3243160/files/mother_R2.fq.gz
    wget -b https://zenodo.org/record/3243160/files/proband_R1.fq.gz
    wget -b https://zenodo.org/record/3243160/files/proband_R2.fq.gz
    

    2.Assess the Read Quality

    # 使用FastQC软件对单个fastq文件进行质量评估,结果输出到qc/文件夹下
    qcdir= ~/project/boy/afterqc
    fqdir=~/project/boy/qc
    
    fastqc -t 3 -o $qcdir $fqdir/father_R1.fq.gz
    
    # 多个数据质控
    fastqc -t 2 -o $qcdir $fqdir/*.fastq.gz
    ##外显子组的话代码是
    fastqc -t 10 -o $qcdir $fqdir/*.fq.gz
    
    # 使用MultiQc整合FastQC结果
    multiqc *.zip
    
    image.png
    image.png
    • Per base sequence quality 每一个位置reads碱基质量箱式图
    • Per sequence quality scores image.png
    • Per base sequence content


      有黄色感叹号说明数据不是特别好;因为一开始AT、GC的百分含量不相等
    • Per sequence GC content


      形状异常的GC分布图【与之前转录组的样本不同,通常认为样品读数的GC含量呈非正态分布,暗示可能存在污染。 但是,在这里,处理来自捕获的外显子组的测序数据,即,这些读数并不代表来自基因组的随机序列,而是代表偏向的选择。】
    点开其中一个样本的FastQC可以看到一个红X
    • Adapter


      质量很好,可以不做trim
    • N Content


      N的比例小于<5%

    所以不用进行过滤

    二、Read Mapping————Bwa

    三、Variant calling

    Free Bays

    1 variants
    vcf可视化:bcftools norm.

    四、ANNOTATION

    SnpEff

    image.png

    GEMINI load

    主要是在八号染色体上(可我找到的都是良性的)

    相关文章

      网友评论

          本文标题:【WES02】WES实战

          本文链接:https://www.haomeiwen.com/subject/wgewgktx.html