目录
1. 简介
2. 数据增广
2.1 Mixup论文
2.2 Manifold Mixup论文
3. 半监督
3.1 ICT 论文
3.2 MixMatch 论文
4. 总结
Mixup数据增强/增广和半监督论文导读
1.简介
为了回答如下问题,我们进行了论文的阅读和分析:
1.数据增强和半监督有什么联系?
2.现在的数据增强算法背后有一些什么假设或者理论支持?
3.现在的半监督算法背后有一些什么假设或者理论支持?
如果回答了1,2和3的答案也就有了。
首先,我们介绍一下数据增强和半监督,然后回答问题一。
然后,我们回答问题二
最后,我们回答问题三
背景知识
1.数据增强定义:Data augmentation in data analysis are techniques used to increase the amount of data by adding slightly modified copies of already existing data or newly created synthetic data from existing data. It acts as regularizer and helps when training a machine learning model.It is closely related to oversampling in data analysis.
利用已有的数据来生成新的数据来扩充数据规模,可以帮助正则化模型,与过采样的方法关系紧密。
2.半监督算法定义: Semi-supervised learning is an approach to machine learning that combines a small amount of labeled data with a large amount of unlabeled data during training. Semi-supervised learning falls between unsupervised learning (with no labeled training data) and supervised learning (with only labeled training data). It is a special instance of weak supervision.
处于监督学习和无监督学习之间,是一种若监督学习的特例。顾名思义,适用场景是那种有部分有标记数据和大量(远多于有标记)的无标记数据的场景。其目标是如何从无标数据中提取到有效的信息来帮助任务的提升。
3.半监督的三个基本假设:
1.Smoothness assumption
假设彼此靠近的点更有可能共享标签。 在监督学习中通常也假定这一点,并且会优先选择几何上简单的决策边界。 在半监督学习的情况下,平滑度假设还会对低密度区域的决策边界产生偏爱。因为很少有不同的点彼此靠近但又属于不同的类别。
2.Cluter assumption
数据往往会形成离散的群集,并且同一群集中的点更可能共享标签(尽管共享标签的数据可能会分布在多个群集中)。 这是平滑假设的一种特殊情况,并导致使用聚类算法进行特征学习。
3.Manifold assumption
数据在流形空间上的维度比输入空间低得多。 在这种情况下,使用标记和未标记数据的流行空间进行学习可以避免维数的诅咒。 学习方法可以使用流行空间上定义的距离和密度进行学习。
(流行空间:相当于是原始输入空间的一些子集或者子结构,类似于一组表示向量空间的基向量)
回答问题一
数据增强(DA)和半监督学习(SSL)可以共享上面三个假设,半监督学习是如何基于假设来利用已有的无标记数据,而数据增强是基于上述某(几)种假设的情况下利用有标数据来生成合成数据并为合成数据打上了标签。由此可见,数据增强背后的假设与半监督的假设其实是同一套假设。
2.数据增强/增广(Data Augmentation, DA)
这个章节简单介绍了一下数据增强的分支流派,然后主要介绍其中的Mixup相关的方法。
现有DA方法都是对现有的标记数据进行一定的修改来得到新的数据。
-基于平滑假设的方法:会在原始输入上进行crop和旋转等各种操作,例如AutoAugmentation, CutOut 和Mixup等.
-基于流行假设的方法:在模型的隐藏层进行一定的修改来得到新的样本,例如AT,VAT和Manifold Mixup等。
回答问题二
数据增强(DA)现在的方法主要基于两种假设来进行设计:平滑假设和流行假设。我们看到,Mixup是一种可以同时利用两种假设的方法,因此其具有更多的适用场景。下面,我们对两种主要的Mixup方法进行介绍。
mixup: Beyond empirical risk minimization
文章发表于2018年的ICLR(poster)
文章提出了一种基于两个样本以及标签插值生成新样本以及标签的数据增强方法。
问题:深度神经网络会有一些意外的行为,如:memorization and sensitivity to adversarial examples。
动机:鼓励模型在两个样本之间表现的更加线性
方法:随机对两个样本数据进行样本和标签的插值,生成新的数据。将新生成的数据加入到训练集中扩充训练集。
代码:https://github.com/facebookresearch/mixup-cifar10
经验总结
1.基于迪利克雷分布中抽样权重进行的两个以上的样本和标签的线性组合不会进一步提升效果。
2.Mixup只是在一个minbatch中进行
3.同一个类别的进行mixup效果不佳
Ablation Study
Manifold Mixup: Better Representations by Interpolating Hidden States
文章发表于2018年的ICLR(poster)
文章提出了一种基于两个样本以及标签插值生成新样本以及标签的数据增强方法。
问题:深度学习模型经常对有细微不同的输入以高置信度出错。
贡献:1.决策边界更加光滑->泛化能力提升
2.在捕捉更高层信息的隐藏层上进行mixup,提供了额外的训练信号
3.更平的类别表示->减少变动显著的方向数量
方法:随机对两个样本的隐藏表示(随机某一个层次{0,1,2})和标签进行插值,生成新的数据。将新生成的数据加入到训练集中扩充训练集。
代码:https://github.com/vikasverma1077/manifold_mixup
3.半监督学习(Semi-Supervised Learning, SSL)
这个章节简单介绍了一下基于Mixup的半监督学习技术以及背后的假设。第一章我们介绍了三种半监督学习的假设,主流的半监督学习算法都会基于其中的一种或几种假设来进行设计。第二章介绍了Mixup这种数据增强的算法。这个章节会继续介绍Mixup在半监督学习上的应用的现状。
[ICT: Interpolation Consistency Training for
Semi-Supervised Learning](https://arxiv.org/pdf/1903.03825.pdf)
文章2019年放到了arxiv
文章提出了一种基于两个无标样本进行插值的一致性正则的半监督方法。
动机:提出了一种基于插值的半监督算法范式。可以将模型的决策边界往低密度区间移动(smoothness/cluster assumption)
方法:
实验:
image.png image.png
代码:https://github.com/vikasverma1077/ICT
MixMatch: A Holistic Approach to Semi-Supervised Learning.
文章发表于NeurIPS 2019
该方法是主要思想是让模型对增强前后的无标数据表现一致,也就是一致性正则。同时,该方法也采用了熵最小正则和正常的l2正则。(smoothness/cluster assumption)
动机:统一了目前用于半监督学习的主流方法,以产生一种新算法MixMatch,该算法猜测数据增强的未标记示例的低熵标签,并使用MixUp混合已标记和未标记的数据。
方法
实验
image.png
image.png
代码:https://github.com/google-research/mixmatch
4.总结
数据增强和半监督算法基于同样的三个假设。
因此数据增强算法和半监督算法联系紧密,相互促进。
半监督算法的常用技术都可以从三个假设的角度来解释,如下:
熵最小正则:模型的输出结果可以表示该数据在多个类别聚类之间的重合程度,熵越大,预测结果越集中,重合度也就越小,应该属于聚类假设
一致性正则:无标数据增强前模型的预测结果=增强后的预测结果,典型的平滑假设。
网友评论