XII部分讲数据的质控,因为已经拿到数据了,就先从这一步开始做吧:
换算成第三张图的error values就可以可视化了。
但是error value非常不可靠,将error values作为一种建议而非精确的测量值(“treat them as an advisory rather than accurate measurements”)
FastQC工具
FastQC并不进行质控,只是可视化数据的质量。也是目前最好的FASTQ质量可视化工具。
即使它是事实上的可视化标准,其结果也不总是最容易解释的。
- 优点:
该工具易于运行(仅需要Java),并且可以绘制出美观的图表。 - 缺点:
已针对Illumina平台进行了调试,在其他类型的数据上可能不稳定。
某些精美图表并未提供足够信息或导致困惑。 例如K-MER图和Overrepresented Sequences图,并没有给出多数人希望给出的内容。
可视化结果需要一个一个点开,不太方便。
FastQC如何工作
FastQC通过评估一小部分数据并将这些结果外推到整个数据集来生成报告。许多指标只在最初的200000个测量值上计算,然后通过其余数据进行跟踪。
FastQC工具的帮助文档:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help
如何运行FastQC执行可视化
下载示例数据
wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
# 包含了illumina.fq, iontorrent.fq, pacbio.fq, minion.fq四个平台的.fq文件
head -10一下fastq文件
运行FastQC工具
fastqc illumina.fq
命令生成一个HTML文件,包含运行结果
感言:
- 对fq.gz使用tar没用
- gunzip不知是否是没有指定目标文件的缘故,原压缩文件在解压后消失了。。7G的压缩文件变成了33G
- 随后执行
fastqc QFPG_2.fq
- 生成的html在服务器上,使用Xftp 6软件进行传输
FastQC可视化结果
参考博文:《FastQC数据质控报告的详细解读》
https://www.jianshu.com/p/dc6820eb342e
- 基本信息,序列长度150bp,GC含量52%,总共测了90million的序列
Conventional base calls什么意思..
-
每个序列reads的质量,前几个read是质量慢慢升高,稳定,最后下降
-
每个tile的序列质量,tile应该指chip-lane-swath-tile
-
序列平均质量的分布
- 每个序列的碱基含量,为什么前15个reads碱基比例波动这么大!
- 序列GC含量的分布,有3个峰,理论分布为正态分布?
-
N碱基的含量,第1个碱基N的百分比较高
-
读长150bp,很稳
- 序列重复水平,非unique reads占总数比例60%左右。横轴为序列重复水平,蓝线unique reads总数(蓝线)作为100%,重复2次序列占10%,重复>10次序列占10%,重复>10k序列占15%
-
大量表达的序列
-
接头含量
-
重复短序列含量 这个图不怎懂
序列的质量控制
质量控制(QC)通过去除数据中可识别的错误来改善数据。 通常是数据采集后执行的第一步。
由于这是更改数据的过程,因此我们必须非常谨慎,理想情况下,我们只希望相同的 (same),更准确 (more accurate)的数据。由于QC不能把不好的数据变成有用的数据,不能对QC抱有不合理的期望。
一些观念上的错误
- 进行简单的QC后数据就可以使用了,不要浪费时间抠细节
- 不要反复调整QC,以似乎“改善”最终结果。 这样做的危险是过拟合——使数据与期望的结果匹配。
执行QC的时机
- 序列比对前:这时所有数据的QC protocol都是一样的
- 序列比对后:这时根据分析的不同执行不同的protocol
执行QC的具体步骤
- 可视化数据
- 当数据质量不错时,直接进行分析
- 若质量不可靠,执行QC,回到第1步
QC工具有多可靠
没多可靠。这是现实。
对于什么是“好数据”,充斥着各种主观的判断
QC同样会产生新的错误
每个QC步骤都会引入新的错误。
终极哲学问题:你是愿意处理仪器引起的错误,还是愿意处理校正仪器错误时引入的新的错误?
因此如果数据没问题,那就不要QC了。
QC工具列表
作者推荐Trimmomatic
, BBDuk
, flexbar
, cutadapt
每个工具都包括了基本的QC方法和一些独特方法
网友评论