2020-01-12 FASTQ文件可视化和质控（QC）

2020-01-12 FASTQ文件可视化和质控（QC）

作者: 王子威PtaYoth | 来源:发表于2020-01-12 21:06 被阅读0次

2020-01-12 FASTQ文件可视化和质控（QC）
RNA-seq入门（二）质控及fastqc报告解读
ATAC-seq分析：比对（3）
Qualimap安装及简单使用
分析colorspace的测序数据
fastp质控小试
实践WES
xmxjy 报告流程
bowtie2比对参考基因组（待续...）
三、数据质控

XII部分讲数据的质控，因为已经拿到数据了，就先从这一步开始做吧：

换算成第三张图的error values就可以可视化了。
但是error value非常不可靠，将error values作为一种建议而非精确的测量值（“treat them as an advisory rather than accurate measurements”）

FastQC工具

FastQC并不进行质控，只是可视化数据的质量。也是目前最好的FASTQ质量可视化工具。

即使它是事实上的可视化标准，其结果也不总是最容易解释的。

优点：
该工具易于运行（仅需要Java），并且可以绘制出美观的图表。
缺点：
已针对Illumina平台进行了调试，在其他类型的数据上可能不稳定。
某些精美图表并未提供足够信息或导致困惑。例如K-MER图和Overrepresented Sequences图，并没有给出多数人希望给出的内容。
可视化结果需要一个一个点开，不太方便。

FastQC如何工作

FastQC通过评估一小部分数据并将这些结果外推到整个数据集来生成报告。许多指标只在最初的200000个测量值上计算，然后通过其余数据进行跟踪。

FastQC工具的帮助文档：
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help

如何运行FastQC执行可视化

下载示例数据

wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
# 包含了illumina.fq, iontorrent.fq, pacbio.fq, minion.fq四个平台的.fq文件

head -10一下fastq文件

运行FastQC工具

fastqc illumina.fq

命令生成一个HTML文件，包含运行结果

感言：

对fq.gz使用tar没用
gunzip不知是否是没有指定目标文件的缘故，原压缩文件在解压后消失了。。7G的压缩文件变成了33G
随后执行fastqc QFPG_2.fq
生成的html在服务器上，使用Xftp 6软件进行传输

FastQC可视化结果
参考博文：《FastQC数据质控报告的详细解读》
https://www.jianshu.com/p/dc6820eb342e

基本信息，序列长度150bp，GC含量52%，总共测了90million的序列
Conventional base calls什么意思..

每个序列reads的质量，前几个read是质量慢慢升高，稳定，最后下降

每个tile的序列质量，tile应该指chip-lane-swath-tile

序列平均质量的分布

每个序列的碱基含量，为什么前15个reads碱基比例波动这么大！

序列GC含量的分布，有3个峰，理论分布为正态分布？

N碱基的含量，第1个碱基N的百分比较高

读长150bp，很稳

序列重复水平，非unique reads占总数比例60%左右。横轴为序列重复水平，蓝线unique reads总数（蓝线）作为100%，重复2次序列占10%，重复>10次序列占10%，重复>10k序列占15%

大量表达的序列

接头含量

重复短序列含量 这个图不怎懂

序列的质量控制

质量控制（QC）通过去除数据中可识别的错误来改善数据。通常是数据采集后执行的第一步。
由于这是更改数据的过程，因此我们必须非常谨慎，理想情况下，我们只希望相同的 (same)，更准确 (more accurate)的数据。由于QC不能把不好的数据变成有用的数据，不能对QC抱有不合理的期望。

一些观念上的错误

进行简单的QC后数据就可以使用了，不要浪费时间抠细节
不要反复调整QC，以似乎“改善”最终结果。这样做的危险是过拟合——使数据与期望的结果匹配。

执行QC的时机

序列比对前：这时所有数据的QC protocol都是一样的
序列比对后：这时根据分析的不同执行不同的protocol

执行QC的具体步骤

可视化数据
当数据质量不错时，直接进行分析
若质量不可靠，执行QC，回到第1步

QC工具有多可靠

没多可靠。这是现实。
对于什么是“好数据”，充斥着各种主观的判断

QC同样会产生新的错误

每个QC步骤都会引入新的错误。
终极哲学问题：你是愿意处理仪器引起的错误，还是愿意处理校正仪器错误时引入的新的错误？
因此如果数据没问题，那就不要QC了。

QC工具列表

作者推荐Trimmomatic, BBDuk, flexbar, cutadapt
每个工具都包括了基本的QC方法和一些独特方法

列表

read质量修剪是

相关文章

2020-01-12 FASTQ文件可视化和质控（QC）
XII部分讲数据的质控，因为已经拿到数据了，就先从这一步开始做吧：换算成第三张图的error values就可以...
RNA-seq入门（二）质控及fastqc报告解读
一、质控前面我们从GEO下好了SRA数据并转换为fastq文件，现在需要对fastq文件进行质控，这里用的软件为...
ATAC-seq分析：比对（3）
1. 质控在比对之前，我们建议花一些时间查看 FASTQ 文件。一些基本的 QC 检查可以帮助我们了解您的测序是...
Qualimap安装及简单使用
对于高通量测序后的文件要进行质控QC有多个软件可以完成，包括最开始的fastqc以及对sam/bam文件的质控如：...
分析colorspace的测序数据
1从EBI下载fastq格式的文件 2 fastqc质控 3 去除solid small rna adapter ...
fastp质控小试
1.听说fastp做质控不错哦： ref1：fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件...
实践WES
测序数据的输入文件为raw fastq，质控软件为fastqc 和trim_galore，通过参数设置，得到结果文...
xmxjy 报告流程
登录 1.生成fastq文件 2. call SNP 新建 list 文件，以tab分割 3.QC 4.数据打包 ...
bowtie2比对参考基因组（待续...）
准备文件物种A参考基因组，以及测序文件.fastq 测序文件质控这里用trim_galore，为什么用trim...
三、数据质控
1.fastq格式介绍 2.数据质控 3.质控报告的理解（html）

网友评论

本文标题：2020-01-12 FASTQ文件可视化和质控（QC）

本文链接：https://www.haomeiwen.com/subject/dbkwactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|2020-01-12 FASTQ文件可视化和质控（QC）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！