Qiime1-14.利用监督学习进行分类

作者: jlyq617 | 来源:发表于2018-12-13 09:58 被阅读19次

机器学习是一种目前流行且使用的生物信息分析方法。本节我们将基于菌群的丰度利用机器学习的方法建立分类器,对样本进行分类。

在运行命令之前,建议使用样本深度在1000左右的样本和稀疏表。此外,还可以使用多个不同的稀疏表来避免因仅采用单个稀疏表而引入的错误。选择一个包含多个样本的合适的稀疏深度非常重要,但通常来讲这样确定的稀疏深度值相对较高。所以,我们通常可以将中值作为采样深度。

稀疏表的生成

单个稀疏表(一个深度) Single Rarefaction

# Single Rarefaction
 single_rarefaction.py \
 -i otu_table.biom \
 -o otu_table_even100.biom \
 -d 1000

多个稀疏表(同一深度) Multiple rarefactions

# Multiple Rarefactions
multiple_rarefactions_even_depth.py \
-i otu_table.biom \
-o rarefied_otu_tables/ \
-d 100 \
-n 10

监督学习

supervised_learning.py \
-i otu_table.biom \
-o supervised_output \
-m mapping_file.txt \
-c SampleType \
--errortype oob \
--ntree 1000

部分参数讲解:
--category | -c metadata文件中用于对样本进行分组、最终绘图时作为x轴的变量名称

--errortype | -e在进行分类时错误估计的类型。有以下几种选择:oob, loo, cv5, cv10. oob: out-of-bag, fastest,默认为oob。
oob: 快速,用于只建立一个分类器的时候,需要快速计算错误估计值。
cv5-5-fold cross validation:提供错误的平均值和标准,适合大样本的估计,更为准确。
cv10-10-fold cross validation:会提供错误的平均值和标准差,最为准确。
loo-leave-one-out cross validation,:用于小样本(通常在30-50个样本左右)
--ntree | -n 用于建立分类器的树的树木。通常来讲越多分类器的效果越好,但是越多就需要更久的运算时间,所以需要选择一个合适的值。

生成文件
cv_probabilities.txt: the label probabilities for each of the given samples. (if available)
mislabeling.txt: A convenient presentation of cv_probabilities for mislabeling detection.
confusion_matrix.txt: confusion matrix for hold-out predictions.
summary.txt: a summary of the results, including the expected generalization error of the classifier
feature_importance_scores.txt: a list of discriminative OTUs with their associated importance scores (if available)

相关文章

  • Qiime1-14.利用监督学习进行分类

    机器学习是一种目前流行且使用的生物信息分析方法。本节我们将基于菌群的丰度利用机器学习的方法建立分类器,对样本进行分...

  • 机器学习概述

    机器学习是实现人工智能的手段,其主要研究内容弄是如何利用数据或经验进行学习,改善算法的性能。 机器学习的分类监督学...

  • 机器学习的种类介绍

    现有的机器学习种类繁多,我们一般可以进行如下的分类标准: 是否在人类监督下学习(监督学习、非监督学习、半监督学习和...

  • Types of Machine Learning: Super

    1. 监督学习 or 无监督学习 2. 监督学习 2.1 分类 2.2 回归 2.3 监督学习:分类 & 回归...

  • 机器学习的分类

    分类: 目前机器学习主流分为:监督学习,无监督学习,强化学习。 监督学习: 监督学习可分为“回归”和“分类”问题。...

  • 机器学习的类型

    二元分类、多元分类、回归、结构化学习、······ 监督学习、非监督学习、半监督学习、强化学习、······ 成批...

  • 常用算法介绍

    常见算法分类 监督式学习 无监督学习 半监督学习 监督式学习 分类1.贝叶斯分类2.决策树算法3.神经网络算法4....

  • 【机器学习与R语言】11- Kmeans聚类

    1.理解Kmeans聚类 1)基本概念 聚类:无监督分类,对无标签案例进行分类。 半监督学习:从无标签的数据入手,...

  • 深度学习的一些基本概念(一)

    申明:非原创,转载自《有监督学习、无监督学习、分类、聚类、回归等概念》 有监督学习、无监督学习、分类、聚类、回归等...

  • 深度学习讲稿(8)

    2.7 无监督参数学习 无监督参数学习本质上是对数据进行分类,但是在数据分类之前已经对该数据有一定的标记。比如淘金...

网友评论

    本文标题:Qiime1-14.利用监督学习进行分类

    本文链接:https://www.haomeiwen.com/subject/urhxhqtx.html