美文网首页
在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本

在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本

作者: 月牙眼的楼下小黑 | 来源:发表于2019-03-05 17:13 被阅读18次

今天起快速扫一下以前看过的论文。翻到一篇未公开发表的论文笔记,里面暗含了一些 ideainsight,感觉写得还可以,不该在犄角旮里里吃灰被埋没,就晒出来吧.

我们看一下主动学习在医学图像分割中的应用。这是一篇讨论病理图像割的论文,声称只用了一半的训练样本就达到了模型的最佳分割性能。


我摘录了它的基本思想,大致意思是: 在训练集中进行有放回抽取,产生 N 组 自举数据, 训练得到 NFCN 模型。 对一个未标注样本,运行所有模型得到不同分割结果,计算分割结果的 分歧度(方差)。分歧度最高的样本就是最具训练价值的样本.

问题来了:为什么这种分歧度(方差)可以作为样本训练价值评价指标呢?或者说,这种方法为什么会work呢?

我们上过统计学习课程的同学对这个图肯定不陌生: 多项式线性回归模型 (出自 《PRML》p150)。我们发现用 15 阶多项式拟合散点时,得到的 100 个模型方差非常大。这张图只画了 50 个模型。我做实验时,把 100 个模型全画出来了,然后发现了 不得了 的东西 (看以前写的东西,常常被自己逗到)。

《PRML》p150 我的实验

我发现,模型方差在输入空间上是不均匀的。模型在一些点上方差非常大,在另一些点上方差就非常小 (图中标识的两个位置,起伏剧烈程度明显不一样)。如果我们标注了方差大的点,再次进行线性拟合,模型的过拟合程度是否就下降了呢 ?这是第一点。

第二点就是根据这幅图,我在这里试图给出对 Active learning 本质的一个猜想: active learning 本质上是一个模型不断降低过拟合程度的过程最具标注价值的样本是能最大限度降低模型过拟合程度的样本


作 者: 月牙眼的楼下小黑
联 系: zhanglf_tmac (Wechat)
声 明: 欢迎转载本文中的图片或文字,请说明出处


相关文章

  • 在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本

    今天起快速扫一下以前看过的论文。翻到一篇未公开发表的论文笔记,里面暗含了一些 idea 和 insight,感觉写...

  • 第六章 支持向量机

    间隔与支持向量 给定训练样本集,分类学习最基本的想法就是基于训练集在样本空间中找到一个划分超平面,将不同类别的样本...

  • 有监督学习中的损失函数

    分类问题 在有监督学习中,损失函数刻画了模型和训练样本的匹配程度。假设训练样本的形式为,其中,表示第i个样本点的特...

  • 客户分群-聚类算法

    机器学习算法分类 有监督学习 有训练样本 分类模型 预测模型 无监督学习 无训练样本 关联模型 聚类模型 聚类算法...

  • 算法笔记(11)逻辑回归算法及Python代码实现

    逻辑回归算法是一种被广泛使用的分类算法,通过训练数据中的正负样本,学习样本特征到样本标签之间的假设函数。逻辑回归假...

  • 逻辑回归(logistics regression)

    用途:分类问题假设函数: 我们就是要通过训练样本来确定theta的取值z=Theta^t*x在样本的图像上即是分类...

  • 【挖掘篇】:决策树原理

    通过对训练样本的学习,并建立分类规则,然后根据分类规则,对新样本数据进行分类预测,属于有监督学习 参考资料:《Py...

  • 决策树建模

    1.通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测。2.虚拟变量:sklearn...

  • 机器学习实战-k近邻算法

    k近邻算法 原理 存在一个样本数据集合,也称作训练样本集,且我们知道样本中每个数据的分类信息。当我们输入未分类的新...

  • 图像训练样本量少时的数据增强技术

    在深度学习训练过程中,训练数据是很重要的,在样本量方便,一是要有尽量多的训练样本,二是要保证样本的分布够均匀,也就...

网友评论

      本文标题:在主动学习中,为什么分类分歧度最高的样本就是最具训练价值的样本

      本文链接:https://www.haomeiwen.com/subject/qahouqtx.html