WES/WGS,call变异流程学习。
第一步,QC
传统方法,FastQC
安装
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip ./
FastQC的运行非常简单,直接在终端通过命令行是最有效直接的,下面我给出一个例子:
$ /path_to_fastqc/FastQC/fastqc untreated.fq -o fastqc_out_dir/
命令比较简单,这里 唯一值得注意的地方就是 -o 参数用于指定FastQC报告的输出目录,这个目录需要事先创建好,如果不指定特定的目录,那么FastQC的结果会默认输出到文件untreated.fq的同一个目录下。它输出结果只有两个,一个html和一个.zip压缩包。
切除测序接头序列和read的低质量序列
$ java -jar trimmomatic-0.36.jar
Usage:
PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>...
or:
SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...
or:
-version
具体看数据质控
fastp
fastp的特性:
对数据自动进行全方位质控,生成人性化的报告
过滤功能(低质量,太短,太多N……);
对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似Trimmomatic的做法,但是快非常多);
全局剪裁 (在头/尾部,不影响去重),对于Illumina下机数据往往最后一到两个cycle需要这样处理;
去除接头污染。厉害的是,你不用输入接头序列,因为算法会自动识别接头序列并进行剪裁;
对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正;
去除尾部的polyG。对于Illumina NextSeq/NovaSeq的测序数据,因为是两色法发光,polyG是常有的事,所以该特性对该两类测序平台默认打开;
对于PE数据中的overlap区间中不一致的碱基对,依据质量值进行校正;
可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index上,都可以轻松处理;
-可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数
具体看fastp
对于多样品的质控,一个一个看报告显然不可行。这里需要用multiqc
其强大的功能主要体现在以下三个方面:
1)能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
2)支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;
3)支持整合68种软件分析的结果,而且支持的软件还在持续增加,也可以自己写作一个插件,具体见下图。
比对
bwa
bwa主要用于将低差异度的短序列(一般是同物种)与参考基因组进行比对。主要包含三种比对算法:backtrack、SW和MEM,第一种只支持短序列比对(<100bp),后两种支持长序列比对(70bp~1M),并支持分割比对(split alignment)。MEM算法是最新的也是官方推荐的。
先建bwa的索引
bwa index -a bwtsw -p gatk_hg38 ~/reference/genome/gatk_hg38/Homo_sapiens_assembly38.fasta &
比对
nohup bwa mem -t 4 -R '@RG\tID:KPGP00216\tPL:illumina\tLB:WGS\tSM:KPGP00216' ~/reference/index/bwa/gatk_hg38/gatk_hg38 KPGP-00216_L1_R1.clean.fq KPGP-00216_L1_R2.clean.fq 1>KPGP-00216_L1.sam 2>/dev/null &
GATK 4.0 WGS germline call variant
WEScall variant的流程与之差不多
samtic call snv
可以参考的两篇博文
GATK4-mutect2来call somatic mutation
Mutect2-肿瘤不同转移时期的免疫微环境异质性研究
网友评论