WORKFLOW
1.Quality control————FASTQC、MultiQc
2.Reads mapping——BWA
(3.Mapped reads processing)——RmDup
4.Variants calling——— FreeBayes、
5.Variants annotation and report———SnpEff、GEMINI load
QUALITY CONTROL
1.Inspect a raw sequence file
一共6个样本(一家三口 双端测序)
wget -b https://zenodo.org/record/3243160/files/father_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/father_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R2.fq.gz
2.Assess the Read Quality
# 使用FastQC软件对单个fastq文件进行质量评估,结果输出到qc/文件夹下
qcdir= ~/project/boy/afterqc
fqdir=~/project/boy/qc
fastqc -t 3 -o $qcdir $fqdir/father_R1.fq.gz
# 多个数据质控
fastqc -t 2 -o $qcdir $fqdir/*.fastq.gz
##外显子组的话代码是
fastqc -t 10 -o $qcdir $fqdir/*.fq.gz
# 使用MultiQc整合FastQC结果
multiqc *.zip
image.png
image.png
- Per base sequence quality 每一个位置reads碱基质量箱式图
- Per sequence quality scores image.png
-
Per base sequence content
有黄色感叹号说明数据不是特别好;因为一开始AT、GC的百分含量不相等
-
Per sequence GC content
形状异常的GC分布图【与之前转录组的样本不同,通常认为样品读数的GC含量呈非正态分布,暗示可能存在污染。 但是,在这里,处理来自捕获的外显子组的测序数据,即,这些读数并不代表来自基因组的随机序列,而是代表偏向的选择。】
-
Adapter
质量很好,可以不做trim -
N Content
N的比例小于<5%
网友评论