关于数据增强中如何合成高质量样本

作者: 烛之文 | 来源:发表于2021-09-22 17:44 被阅读0次

关于数据增强中如何合成高质量样本
Data Augmentation by Pairing Sam
ENVI：遥感图像增强
深度学习中的数据增强与实现
论文整理：LEARNING AND EVALUATING REP
pytorch笔记01-数据增强
NLP中的数据增强
SPSS数据分析中的独立样本T检验
R语言中的数据框与列联表的转换丨数析学院
开源算法FMix：用于深度学习中增强混合样本数据增强

1 前言

在NLP领域中，数据增强(data augmentation)已成为解决样本不平衡( data imbalance)或训练数据不足等问题一种有效技术。尽管通过数据增强手段，可以产生更多训练数据，但同时也会带来噪声影响，甚至可能导致模型性能变差。如何通过数据增强方法，产生高质量的样本，便成为该方法重点要考虑的问题。当前已有不少相关的研究，如经典的Synthetic Minority Oversampling Technique (SMOTE)方法，以及最近的Resampling MixUp (ReMix)，都是为了提高少类样本重复采样的质量。本次分享两种数据增强的方法，两种方法都比较新，且思路简单，可快速应用到项目中。第一种方法聚焦在构建难负样本(hard negative samples)，第二种方法核心是从一个类型样本生成另一个类型样本。

2 Data Augmentation

下面详细介绍这两种方法：

方法1：Hard Negative Mixing

该方法来自2020年NeurIPS会议一篇论文，论文题目为<Hard Negative Mixing for Contrastive Learning>，是解决当前特别火的对比学习( contrastive learning)中构造对比样的问题。文中指出，尽管有实验证明在一个batch-size下，构造更多的负样本，对对比学习的效果有利，但同时也存在这样的问题：那些与正样本差异度已经很高的负样本，在训练中对对比损失没什么影响，相反，模型应该聚焦学习在那些跟正样本很近的负样本，这样能促使模型能学到更稳健的差异性特征。为此，作者提出了一种hard negative mixing strategies来生成更多难负样本，提高对比学习效果。见下图所示，红色框代表正样本，蓝色三角代表是合成的负样本，这些负样本都是离正样本很近。该方法具有普适性，可作为一种数据增强的方法。

具体来说：对于mini batch中的一个正样本 $X_i$ 来说，通过表征模型Encoder得到它的表征向量 $H_i$ 和排序好后的负样本表征向量集合 $P=\{H_1^-,H_2^-,...,H_M^-\}$ ，排序按照与正样本的相似度来计算，即: $sim(H_i,H_1^-) > sim(H_i,H_2^-)$ , 其中 $sim(u,v)=u^Tv/(||u||_2||v||_2)$ 代表两个样本的余弦相似度计算。

接着，从集合中 $P$ 中选择 $top K$ 样本组成难负样本集合 $P^K$ ，即 $K < M$ items；然后利用线性组合的方式生成 $s$ 个新的难负样本，实现让模型学习更多hard negative samples目的。如 $G =\{G_1^-,G_2^-,...,G_s^- \}$ 为新合成的难负样本集合，对于其中一个合成样本 $G_k \in G$ 来说，其计算方式如下：

$G_k= \frac{\hat{G_k}}{||\hat{G_k}||_2}$
$\hat{G_k}=\alpha_kH_i^- + (1 - \alpha_k)H_j^-$

其中 $H_i^-, H_j^- \in P^K$ 是随机从集合 $P^K$ 选择的两个样本， $\alpha_k \in (0, 1)$ 是平衡两个样本的计算系数。论文中参数 $\alpha_k$ 作者是随机确定的，比如取0.5。

总体来说，Hard Negative Mixing是从原有的hard negative samples集合中，通过线性组合合成更多的samples，新生成的样本具体原来集合中hard特征，这样让模型有更多高质量样本去学习。作者在实验中显示，该方法可以有1%的提升的效果。

方法2：good-enough example extrapolation

该方法来自今年Google Research一篇论文，论文题目为：<Good-Enough Example Extrapolation>，论文已投了2021EMNLP会议。其借用这样一个直觉：同类样本在表征后，在高维空间上有相同的分布，而其中单独样本成随机状态；不同类样本呈现不同分布，分布之间的距离可表示为不同类之间的差距与关系。为此，文中提出好的样本外推的方式生成新样本的方法——good-enough example extrapolation(GE3)，以此来产生更多高质量样本，解决样本不平衡问题。如下图所以，GE3方法将类别Travel分布中一个样本，推向Health分布中，形成一个新的Health样本。

该方法计算简单，不需要额外的参数，计算方式如下：

对于一个有 $k$ 个类别的分类任务 $\{c_j\}_{j=1}^k$ 来说， $n_c$ 为c类别的样本数量， $X_c^i$ 为c类第i个样本的表征向量，则对于每个类别c来说：
$\mu(c)=\frac{1}{n}\sum_i^{n_c}X_c^i$

接着，GE3方法将样本在高维空间中从源类 $c_s$ 外推到的目标类 $c_t$ 来生成增强示例。对于源类中的空间表示为 $x_{c_s}^i$ 的一个样本，则对应在目标类中生成了一个相应的增强示例 $\hat{x}_{c_t}$ :

$\hat{x}_{c_t}=x_{c_s}^i - \mu(c_s) + \mu(c_t)$

这样，可以按一定比例将不同类别的样本外推到少类别中，进而产生更多样本，缓解数据集中不平衡问题。可以看出来，该方法十分简单，也很好理解。作者在实验中验证，该数据增强方法在不平衡性文本分类任务上可带来平均5%的提升。

3 结语

本次分享两个简单且落地容易的数据增强方法，可在实践项目中尝试运用。当然，数据增强有很多方法，本次分享的方法可作为一个辅助的技术点应用到自己的项目或者研究中，是否真正有效，还需在自己数据环境中进一步验证~

更多文章可关注笔者公众号：自然语言处理算法与实践

关于数据增强中如何合成高质量样本
1 前言在NLP领域中，数据增强(data augmentation)已成为解决样本不平衡( data imba...
Data Augmentation by Pairing Sam
——Sample Pairing，图像分类中的数据增强，从训练集随机抽取的两幅图像叠加合成一个新的样本（像素取平均...
ENVI：遥感图像增强
图像增强：通过对图像数据采用各种图像增强算法，提高图像的目视效果，方便人工目视解译、图像分类中样本选取等
深度学习中的数据增强与实现
1. 数据增强Data Augmentation 数据增强让有限的数据产生更多的数据，增加训练样本的数量以及多样性...
论文整理：LEARNING AND EVALUATING REP
该论文提出了一种新的增强分布的对比学习方法，该方法通过数据增强来扩展训练数据的分布，将增强后的数据也作为不同样本进...
pytorch笔记01-数据增强
1、什么是数据增强数据增强是扩充数据样本规模的一种有效地方法。深度学习是基于大数据的一种方法，我们当前希望数据的...
NLP中的数据增强
最近有同学问nlp中如何做data augmentation，这篇总结下目前知道的方法。数据增强数据增强技术已...
SPSS数据分析中的独立样本T检验
上一次我们说到了如何对样本进行单样本T检验，知道了如何通过单样本T检验来对数据进行分析。今天我们继续来看看T检验中...
R语言中的数据框与列联表的转换丨数析学院
问题在R中，如何实现样本数据框、样本类型组合计数数据框以及数据列联表之间进行相互转换？指南下列三个数据结构传...
开源算法FMix：用于深度学习中增强混合样本数据增强
作者介绍近来混合样本数据增强（MSDA）受到越来越多的关注，其中包括许多成功的变体，例如MixUp和Cut-M...