介绍
我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较少的训练样本来获得性能较好的分类器呢?主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。
与传统技术在整个样本池中进行Uncertainty Sampling不同,这篇文章利用GAN的技术生成合成样本,在合成的样本中进行Uncertainty Sampling。作者认为Generator生成的样本比样本池中的样本要少很多,因此可以减少计算量。
方法
Uncertainty Sampling
所谓Uncertainty Sampling指的是找出分类器最不确定的Sample,作为主动学习(active learning)的训练样本。
uncertainty sampling的策略主要有两种:
-
选取距离超平面最近的样本:
其中是样本池,代表feature map,表示第个active learning cycle。
-
最大信息熵准则。信息熵表示为:
是所有的类别数。最大信息熵准则被定义为:
当的时候,最大。意味着最大信息熵准则找到的是分类器最不确定的样本。
Adversarial Sampling for Active Learning (ASAL)
Adversarial Sample Generation using GANs
Discriminator 的作用是确保generator 生成的样本与真实样本相差无几。作者的想法是从Generator的输出中进行Uncertainty Sampling,这样uncertainty sampling的两种策略可以表示为:
以及
但是作者同时指出,直接生成样本有两个问题:
- 需要人工标注
- 生成的样本容易导致sampling-bias
统计学中,sampling-bias(抽样偏差)是在抽样过程由于一系列因素造成不符合随机抽样的原则,导致样本失去可以估计总体的能力(失真)。
所以作者提出在sample matching的方法,即在真实样本中找到与生成样本最接近的,作为主动学习的训练样本
Sample Matching
作者提出了三种sample matching的策略:像素、autoencoder之后的向量以及Discriminator提取的图像特征,都使用的是欧氏距离作为匹配的依据。
实验
sample matching的case
Classification Results on MNIST
选用了不同的GAN作为对比,感觉WGAN-GP要好一些
Classification Results on CIFAR10
点评
不管使用何种GAN,以及何种sample matching的策略,ASAL的效果都比random sample要好一些。
文章一个主要的motivation在于使用GAN来减少传统Uncertainty Sampling的时间消耗,但是并没有相关的实验支撑这个观点。
另外如果把基于欧式距离的匹配改为余弦相似性会不会更好?
网友评论