biobakery_workflows宏基因组数据分析流程中有三个主要步骤(质控、物种分类和功能注释),以下是其结果文件的详细说明。
- 质量控制(Quality control)
质控由KneadData工具完成。输出结果保存在main和merged两个文件夹中,分别对应每个样本的结果和汇总的结果。
对于每个样本,KneadData会输出:
- 通过质控的clean reads文件
- 分析日志
- 去除重复序列的reads文件
- 去除低质量reads和碱基的reads文件
- 比对到人源污染数据库的序列文件
汇总结果中包含一个记录所有样本每个步骤reads数的表格,可用于评估整个实验的质控效果。
- 物种分类(Taxonomic profiling)
使用MetaPhlAn2进行物种分类,也会生成每个样本的结果(main目录)和汇总结果(merged目录)。
每个样本的结果包括:
- 比对到marker基因的结果
- 样本的物种组成profiling文件
汇总结果包括所有样本的species count表和合并的taxonomic profile表。
- 功能注释(Functional profiling)
使用HUMAnN2进行功能注释。对每个样本会输出:
- 基因家族(gene family)的丰度文件
- 通路(pathway)的丰度文件
- 通路的覆盖度文件
- 分析日志文件
- 中间结果文件
此外还会生成按照酶的编号(EC)和相对丰度重组(regroup)和标准化(renormalize)的结果。
汇总的结果包括所有样本合并的基因家族、EC、通路的原始丰度和相对丰度文件。counts目录中还会有各类feature的counts文件以及每个样本的species数和比对上的reads数的统计文件。
网友评论