美文网首页
【WES02】WES实战

【WES02】WES实战

作者: 呆呱呱 | 来源:发表于2020-12-16 00:01 被阅读0次

WORKFLOW

1.Quality control————FASTQC、MultiQc
2.Reads mapping——BWA
(3.Mapped reads processing)——RmDup
4.Variants calling——— FreeBayes、
5.Variants annotation and report———SnpEff、GEMINI load

QUALITY CONTROL

1.Inspect a raw sequence file

一共6个样本(一家三口 双端测序)

wget -b https://zenodo.org/record/3243160/files/father_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/father_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/mother_R2.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R1.fq.gz
wget -b https://zenodo.org/record/3243160/files/proband_R2.fq.gz

2.Assess the Read Quality

# 使用FastQC软件对单个fastq文件进行质量评估,结果输出到qc/文件夹下
qcdir= ~/project/boy/afterqc
fqdir=~/project/boy/qc

fastqc -t 3 -o $qcdir $fqdir/father_R1.fq.gz

# 多个数据质控
fastqc -t 2 -o $qcdir $fqdir/*.fastq.gz
##外显子组的话代码是
fastqc -t 10 -o $qcdir $fqdir/*.fq.gz

# 使用MultiQc整合FastQC结果
multiqc *.zip
image.png
image.png
  • Per base sequence quality 每一个位置reads碱基质量箱式图
  • Per sequence quality scores image.png
  • Per base sequence content


    有黄色感叹号说明数据不是特别好;因为一开始AT、GC的百分含量不相等
  • Per sequence GC content


    形状异常的GC分布图【与之前转录组的样本不同,通常认为样品读数的GC含量呈非正态分布,暗示可能存在污染。 但是,在这里,处理来自捕获的外显子组的测序数据,即,这些读数并不代表来自基因组的随机序列,而是代表偏向的选择。】
点开其中一个样本的FastQC可以看到一个红X
  • Adapter


    质量很好,可以不做trim
  • N Content


    N的比例小于<5%

所以不用进行过滤

二、Read Mapping————Bwa

三、Variant calling

Free Bays

1 variants
vcf可视化:bcftools norm.

四、ANNOTATION

SnpEff

image.png

GEMINI load

主要是在八号染色体上(可我找到的都是良性的)

相关文章

网友评论

      本文标题:【WES02】WES实战

      本文链接:https://www.haomeiwen.com/subject/wgewgktx.html