介绍
- 高通量测序数据的高级质控工具
- 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告
安装
conda install fastqc
这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖) : Conda 安装使用图文详解
使用
fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq
-o --outdir:输出路径
--extract:结果文件解压缩
--noextract:结果文件压缩
-f --format:输入文件格式.支持bam,sam,fastq文件格式
-t --threads:线程数
-c --contaminants:制定污染序列。文件格式 name[tab]sequence
-a --adapters:指定接头序列。文件格式name[tab]sequence
-k --kmers:指定kmers长度(2-10bp,默认7bp)
-q --quiet: 安静模式
文档:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
结果解读
mark完全正常(绿),略有异常(橙) 或异常(红)
1. Basic Statistics (基础统计)
mark2. Per base sequence quality
mark- 这是 read length = 100 的scRNAseq数据,横轴为read位置,纵轴是quality。
- quality = -10*log10(p),p为测错的概率。
- 根据quality给出质量结果:正常区间(28 - 40),警告区间(20-28),错误区间(0-20)。
- 比如,当read的某一位置的p=0.01,quality=20,那么它就处于错误区间。
3. Per tile sequence quality
mark4. Per base quality scores
mark- 横轴为quality,纵轴为reads计数。
- 当峰值处于quality为0-20时,报错。
5. Per sequence sequence content
mark- 横轴为位置,纵轴为百分比
- 正常测序数据为频率相近的四种碱基,无位置差异。表现在图上的话,四条线应该是平行且接近。
- 当任意位置A/T与G/C相差大于10%报警告,大于20%报错
6. Per base GC content
mark- 横轴为GC含量,纵轴为read计数。红色为实际测得,蓝色为理论分布。
- 如果曲线形状不符,代表文库污染
- 偏离大于15%,报警告;大于30%,报错
7. Per base N content
mark- N 代表测序仪不能识别的碱基,横轴代表read位置,纵轴代表占比
- 如果正常测序,红线应该是趋近与0的直线
- 当任意位置N占比大于5%,报警告;大于20%,报错
8. Sequence Length Distribution
mark- reads 长度不一致报警告;reads长度为0是报错
9. Sequence Duplication Levels
mark- 横坐标为重复(duplication)的次数,纵坐标为reads的数目,以unique reads的总数作为100%
- 比如,当unique reads数大约为10%时,有两个重复;正常测序开始较高,后续趋近0%
10. Adapter Content
·mark- 横坐标为read位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出
- 正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头
网友评论