今天起快速扫一下以前看过的论文。翻到一篇未公开发表的论文笔记,里面暗含了一些 idea
和 insight
,感觉写得还可以,不该在犄角旮里里吃灰被埋没,就晒出来吧.

我们看一下主动学习在医学图像分割中的应用。这是一篇讨论病理图像割的论文,声称只用了一半的训练样本就达到了模型的最佳分割性能。

我摘录了它的基本思想,大致意思是: 在训练集中进行有放回抽取,产生 N
组 自举数据, 训练得到 N
个 FCN
模型。 对一个未标注样本,运行所有模型得到不同分割结果,计算分割结果的 分歧度(方差)。分歧度最高的样本就是最具训练价值的样本.
问题来了:为什么这种分歧度(方差)可以作为样本训练价值评价指标呢?或者说,这种方法为什么会work呢?
我们上过统计学习课程的同学对这个图肯定不陌生: 多项式线性回归模型 (出自 《PRML》p150
)。我们发现用 15
阶多项式拟合散点时,得到的 100
个模型方差非常大。这张图只画了 50
个模型。我做实验时,把 100
个模型全画出来了,然后发现了 不得了 的东西 (看以前写的东西,常常被自己逗到)。


我发现,模型方差在输入空间上是不均匀的。模型在一些点上方差非常大,在另一些点上方差就非常小 (图中标识的两个位置,起伏剧烈程度明显不一样)。如果我们标注了方差大的点,再次进行线性拟合,模型的过拟合程度是否就下降了呢 ?这是第一点。
第二点就是根据这幅图,我在这里试图给出对 Active learning
本质的一个猜想: active learning
本质上是一个模型不断降低过拟合程度的过程,最具标注价值的样本是能最大限度降低模型过拟合程度的样本。
作 者: 月牙眼的楼下小黑
联 系: zhanglf_tmac (Wechat)
声 明: 欢迎转载本文中的图片或文字,请说明出处

网友评论