文字转载
DADA2是用于检测和校正(如果有可能的话)Illumina扩增序列数据的工作流程。正如在q2-dada2插件中实现的,这个质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列(通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量),并同时过滤嵌合序列。
dada2 denoise-single方法需要两个用于质量过滤的参数:--p-trim-left m,它去除每个序列的前m个碱基(如引物、标签序列barcode);--p-trunc-len n,它在位置n截断每个序列。这允许用户去除序列的低质量区域、引物或标签序列等。为了确定要为这两个参数传递什么值,你应该查看上面由qiime demux summarize生成的demux.qzv文件中的交互质量图选项卡。
--p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;
--p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为120。
单端序列去噪, 输入样本拆分后结果;去除左端 0 bp (--p-trim-left,有时用于切除低质量序列、barocde或引物),序列切成 120 bp 长(--p-trunc-len);生成代表序列、特征表和去噪过程统计。
下面的步骤计算量较大,有34个样本,26万条序列,计算大约消耗10分钟。
time qiime dada2 denoise-single \
--i-demultiplexed-seqs demux.qza \
--p-trim-left 0 \
--p-trunc-len 120 \
--o-representative-sequences rep-seqs-dada2.qza \
--o-table table-dada2.qza \
--o-denoising-stats stats-dada2.qza
生成三个输出文件:
stats-dada2.qza: dada2计算统计结果。查看 | 下载
rep-seqs-dada2.qza: 代表序列。 查看 | 下载
对特征表统计进行进行可视化
qiime metadata tabulate \
--m-input-file stats-dada2.qza\
--o-visualization stats-dada2.qzv
可视化 代码
网友评论