经过前面的分析步骤,我们得到了特征表,代表序列及进化树文件,并更改了其名称;接下来就让我们根据silva 138
数据库训练特征分类器来对代表序列进行注释:
1.导入参考序列数据库
time qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path silva.16s_bacteria.fasta \
--output-path silva.16s_bacteria.qza
2.导入物种分类注释数据库
time qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path silva.16s_bacteria.tax \
--output-path ref_silva.16s_bacteria.tax.qza
3. 训练分类器
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads silva.16s_bacteria.qza \
--i-reference-taxonomy ref_silva.16s_bacteria.tax.qza \
--o-classifier classifier.qza
注:此步骤特别耗费时间,在132G的服务器上运行此程序耗时64h,无特殊需求可直接使用官网提供训练好的数据库:
https://data.qiime2.org/2020.8/common/silva-138-99-nb-classifier.qza
4. 数据注释
这一步输入我们得到的代表序列文件,对其进行分类注释
time qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
注:128G服务器41个样本用时3h,个人8G电脑请不要尝试
同时也可以用blast比对的方法来进行数据注释,
参考:https://www.jianshu.com/p/85e7930f710d
5. 可视化注释的结果
time qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
网友评论