在主动学习中，为什么分类分歧度最高的样本就是最具训练价值的样本

作者: 月牙眼的楼下小黑 | 来源:发表于2019-03-05 17:13 被阅读18次

在主动学习中，为什么分类分歧度最高的样本就是最具训练价值的样本
第六章支持向量机
有监督学习中的损失函数
客户分群-聚类算法
算法笔记（11）逻辑回归算法及Python代码实现
逻辑回归(logistics regression)
【挖掘篇】：决策树原理
决策树建模
机器学习实战-k近邻算法
图像训练样本量少时的数据增强技术

今天起快速扫一下以前看过的论文。翻到一篇未公开发表的论文笔记，里面暗含了一些 idea 和 insight，感觉写得还可以，不该在犄角旮里里吃灰被埋没，就晒出来吧.

我们看一下主动学习在医学图像分割中的应用。这是一篇讨论病理图像割的论文，声称只用了一半的训练样本就达到了模型的最佳分割性能。

我摘录了它的基本思想，大致意思是：在训练集中进行有放回抽取，产生 N 组自举数据, 训练得到 N 个 FCN 模型。对一个未标注样本，运行所有模型得到不同分割结果，计算分割结果的 分歧度（方差）。分歧度最高的样本就是最具训练价值的样本.

问题来了：为什么这种分歧度（方差）可以作为样本训练价值评价指标呢？或者说，这种方法为什么会work呢？

我们上过统计学习课程的同学对这个图肯定不陌生：多项式线性回归模型 (出自 《PRML》p150)。我们发现用 15 阶多项式拟合散点时，得到的 100 个模型方差非常大。这张图只画了 50 个模型。我做实验时，把 100 个模型全画出来了，然后发现了 不得了 的东西 (看以前写的东西，常常被自己逗到)。