美文网首页WES测序分析WES与WGS
WES/WGS,call变异流程学习。

WES/WGS,call变异流程学习。

作者: 昌平厄齐尔 | 来源:发表于2019-06-19 14:10 被阅读36次

    WES/WGS,call变异流程学习。

    第一步,QC

    传统方法,FastQC

    安装

    $ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip ./
    

    FastQC的运行非常简单,直接在终端通过命令行是最有效直接的,下面我给出一个例子:

    $ /path_to_fastqc/FastQC/fastqc untreated.fq -o fastqc_out_dir/
    

    命令比较简单,这里 唯一值得注意的地方就是 -o 参数用于指定FastQC报告的输出目录,这个目录需要事先创建好,如果不指定特定的目录,那么FastQC的结果会默认输出到文件untreated.fq的同一个目录下。它输出结果只有两个,一个html和一个.zip压缩包。

    切除测序接头序列和read的低质量序列

    $ java -jar trimmomatic-0.36.jar
    Usage:
           PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
       or:
           SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...
       or:
           -version
    

    具体看数据质控

    fastp

    fastp的特性:

    对数据自动进行全方位质控,生成人性化的报告
    过滤功能(低质量,太短,太多N……);
    对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似Trimmomatic的做法,但是快非常多);
    全局剪裁 (在头/尾部,不影响去重),对于Illumina下机数据往往最后一到两个cycle需要这样处理;
    去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁;
    对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;
    去除尾部的polyG。对于Illumina NextSeq/NovaSeq的测序数据,因为是两色法发光,polyG是常有的事,所以该特性对该两类测序平台默认打开;
    对于PE数据中的overlap区间中不一致的碱基对,依据质量值进行校正;
    可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index上,都可以轻松处理;
    -可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数

    具体看fastp

    对于多样品的质控,一个一个看报告显然不可行。这里需要用multiqc

    其强大的功能主要体现在以下三个方面:
    1)能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
    2)支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;
    3)支持整合68种软件分析的结果,而且支持的软件还在持续增加,也可以自己写作一个插件,具体见下图。

    比对

    bwa
    bwa主要用于将低差异度的短序列(一般是同物种)与参考基因组进行比对。主要包含三种比对算法:backtrack、SW和MEM,第一种只支持短序列比对(<100bp),后两种支持长序列比对(70bp~1M),并支持分割比对(split alignment)。MEM算法是最新的也是官方推荐的。
    先建bwa的索引

    bwa index -a bwtsw -p gatk_hg38 ~/reference/genome/gatk_hg38/Homo_sapiens_assembly38.fasta &
    

    比对

    nohup bwa mem -t 4 -R '@RG\tID:KPGP00216\tPL:illumina\tLB:WGS\tSM:KPGP00216' ~/reference/index/bwa/gatk_hg38/gatk_hg38 KPGP-00216_L1_R1.clean.fq KPGP-00216_L1_R2.clean.fq 1>KPGP-00216_L1.sam 2>/dev/null &
    

    GATK 4.0 WGS germline call variant

    WEScall variant的流程与之差不多

    samtic call snv

    可以参考的两篇博文
    GATK4-mutect2来call somatic mutation
    Mutect2-肿瘤不同转移时期的免疫微环境异质性研究

    注释

    snpeff
    相关介绍

    相关文章

      网友评论

        本文标题:WES/WGS,call变异流程学习。

        本文链接:https://www.haomeiwen.com/subject/hoxkqctx.html