美文网首页生信基础知识
生信软件 | FastQC(质量控制,查看测序质量)

生信软件 | FastQC(质量控制,查看测序质量)

作者: 白墨石 | 来源:发表于2019-10-28 22:32 被阅读0次

介绍

  • 高通量测序数据的高级质控工具
  • 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告

安装

conda install fastqc

这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖) : Conda 安装使用图文详解

使用

fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq

-o --outdir:输出路径
--extract:结果文件解压缩
--noextract:结果文件压缩
-f --format:输入文件格式.支持bam,sam,fastq文件格式
-t --threads:线程数
-c --contaminants:制定污染序列。文件格式 name[tab]sequence
-a --adapters:指定接头序列。文件格式name[tab]sequence
-k --kmers:指定kmers长度(2-10bp,默认7bp)
-q --quiet: 安静模式

文档:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

结果解读

mark

完全正常(绿),略有异常(橙) 或异常(红)

1. Basic Statistics (基础统计)

mark

2. Per base sequence quality

mark
  • 这是 read length = 100 的scRNAseq数据,横轴为read位置,纵轴是quality。
  • quality = -10*log10(p),p为测错的概率。
  • 根据quality给出质量结果:正常区间(28 - 40),警告区间(20-28),错误区间(0-20)。
  • 比如,当read的某一位置的p=0.01,quality=20,那么它就处于错误区间。

3. Per tile sequence quality

mark

4. Per base quality scores

mark
  • 横轴为quality,纵轴为reads计数。
  • 当峰值处于quality为0-20时,报错。

5. Per sequence sequence content

mark
  • 横轴为位置,纵轴为百分比
  • 正常测序数据为频率相近的四种碱基,无位置差异。表现在图上的话,四条线应该是平行且接近。
  • 当任意位置A/T与G/C相差大于10%报警告,大于20%报错

6. Per base GC content

mark
  • 横轴为GC含量,纵轴为read计数。红色为实际测得,蓝色为理论分布。
  • 如果曲线形状不符,代表文库污染
  • 偏离大于15%,报警告;大于30%,报错

7. Per base N content

mark
  • N 代表测序仪不能识别的碱基,横轴代表read位置,纵轴代表占比
  • 如果正常测序,红线应该是趋近与0的直线
  • 当任意位置N占比大于5%,报警告;大于20%,报错

8. Sequence Length Distribution

mark
  • reads 长度不一致报警告;reads长度为0是报错

9. Sequence Duplication Levels

mark
  • 横坐标为重复(duplication)的次数,纵坐标为reads的数目,以unique reads的总数作为100%
  • 比如,当unique reads数大约为10%时,有两个重复;正常测序开始较高,后续趋近0%

10. Adapter Content

·mark
  • 横坐标为read位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出
  • 正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头

相关文章

网友评论

    本文标题:生信软件 | FastQC(质量控制,查看测序质量)

    本文链接:https://www.haomeiwen.com/subject/zvpivctx.html