目前的nanopore测序质量一般,那么测序质量到底如何,则需要进行量化,也就是数据质控分析。数据质控是数据分析中非常重要的步奏,严格来说,数据分析中的每一步都需要进行数据质控,否则可能得到假阳性后者假阴性的结果,最终得到错误的结论。二代测序的数据质控目前已经非常成熟了,三代nanopore数据该如何进行质控呢,这次内容我们就来介绍一下
目前主流的R9.4芯片准确性在92%左右,下面是百迈克公司发布的一些nanopore测序数据的情况,我们看到当前nanopore测序平均Q值在7以上,Q7可以作为数据过滤的一个标准,平均长度可以在20K以上
目前用于nanopore测序数据质控的软件还是蛮多的
安装nanopack软件
虽然前面我们介绍过可以使用minion_qc处理sequencing_summary.txt文件进行绘图,但这是对结构化的统计表进行处理,而更常见的情况是需要对fastq文件进行处理。nanopack软件包可以用于nanopore数据的各种处理,里面包含了NanoComp,NanoFilt,NanoGUI,NanoLyse,NanoPlot,NanoStat等工具包,可以使用pip直接进行安装,一些工具也可以使用bioconda来安装,不过工具包中并不包括nanoQC,nanoQC需要单独安装。软件需要python 3以上版本,因为python的版本问题可能导致安装不成功,所以建议利用bioconda虚拟环境来进行安装使用。
命令行:
conda install -c bioconda nanoplot
另外由于这个nanoplot包是包含在nanopack里面的,所以如果要使用的话,需要进行激活nanoplot工具,即在conda
的环境下激活Nanoplot
#激活nanopack
conda activate nanopack

激活之后可以明显看到Linux命令行前面的 (base) 切换成了现在的(nanopack)
使用NanoPlot对测序数据进行序列质控
NanoPlot --fastq ./output_hac/pass/all.fastq -o nanoplot/ -t8 --plots hex dot
生成的质控输出目录

下载NanoPlot-report.html文件
sz NanoPlot-report.html
结果预览:


结果解读:
首先看平均长度为300多,可能是多重PCR的数据,如果是正常的全基因组的测序数据肯定是比较低的。第二个是mean read quality有些低,如果不是用的fast模式或者或者老版本的guppy那可能的原因就是该该测序数据的质量不是特别好,一般来说现在的DNA质量都在13以上。
另外对于basecalling的过程,hac模式的质量值卡在9这个值,所以对于质控出来的reads如果quality值低于9一律被归为fail,这就导致basecalling出来的结果目录中既包含pass也包含fail目录
另外如果不考虑时间成本的话,也可以用super模式,得到的reads的准确度会更高
另外也可以用Qualimap
进行质控
参考链接:https://wap.sciencenet.cn/blog-2970729-1070459.html?mobile=1
示例:
qualimap bamqc -bam ~/project/ONT/multi_sample_basecalling_gpu_sup/4_minimap_alignment/barcode01/alignment.sorted.bam -oc
网友评论