论文阅读“Improved Text Classificatio

作者: 掉了西红柿皮_Kee | 来源:发表于2022-03-31 21:57 被阅读0次

论文阅读“Improved Text Classificatio
论文阅读（19）Attributes for Improved
vim manual
论文阅读：An Improved Data Stream Sum
推荐系统论文阅读（五十四)-谷歌：改进的DCN-V2模型
基于驾驶员行为特征的疲劳驾驶检测系统
CVPR2020_Improved Few-Shot Visua
推荐系统遇上深度学习(四十一)-Improved Recurre
2017.7.28
Focuing Attention论文阅读笔记

Pan, Lin, et al. "Improved Text Classification via Contrastive Adversarial Training." (AAAI 2022).

摘要导读

作者提出了一种简单而通用的方法来规范基于Transformer的编码器的文本分类任务。具体地说，在微调过程中，通过干扰模型的单词嵌入来生成对抗样本，并对原始clean和对抗noisy的例子进行对比学习，以促进模型学习噪声不变的表示。通过对原始的和对抗的例子使用额外的对比目标进行训练，提出的方法比标准的微调有一致的提高。

模型简记

首先给出的是标准的基于fine-tuning学习的Transformer-based的编码器文本分类任务。然后介绍提出的模型是如何产生对抗样本并且在对抗样本和原始的clean样本间使用对比学习提出了CAT模型。整体的模型图如下所示：

作者使用 Fast Gradient Sign Method，通过扰动编码器的词嵌入矩阵V来生成对抗性的例子。然后，对原始样本和扰动的例子进行交叉熵损失的训练。此外，我们引入对比损失，使原始样本和其相应的扰动例子的表示彼此接近，以便模型学习噪声不变的表示。

准备工作
该分类任务基于一个标准的文本多分类任务，给定训练样本 $\{x_i,y_i\}_{i,...,N}$ 。假定通过基于Transformer的预训练语言模型，如BERT等。给定关于 $x_i$ 的标记序列 $x_i=[CLS, t_1, t_2, ..., t_T, SEP]$ ，PLM的输出为一个上下文相关的标记表示 $H^L$ : 其中， $L$ 为模型的层数。
对这些大型PLM进行微调的标准做法是在模型的句子级表示之上添加一个softmax分类器，例如对BERT中[CLS]标记的最终隐藏状态 $h_{[CLS]}$ 进行分类： $N$ 为当前batch的训练样本的数量。
对抗样本的生成
对抗样本对模型的干扰是在不知不觉中进行的，使得模型会产生分类错误。（ Explaining and harnessing adversarial examples.）提出了快速梯度符号法(FGSM)来生成这样的例子，并对干净和对抗性的例子进行训练，作为提高模型对对手的鲁棒性的有效方法。从形式上来说，给定损失函数 $L(f_\theta(x_i+r),y_i)$ ， $x_i$ 为输入样本， $f_\theta$ 为神经网络映射函数，在扰动 $r$ 的最大范数约束下，需要使损失函数最大化使用一阶近似，上述的损失函数可以进行如下的推导：
对比学习
为了学习句子级别的噪音不变表示，作者使用了原始文本和生成的对抗样本的[CLS]表示作为对比学习的特征，并且将其构成对比学习中的正例对（ $h^i_{[CLS]}$ , $h^j_{[CLS]}$ ）。为了更好的发挥作用，对比学习损失并不是直接用在[CLS]表示上，而是对其进行了如下的非线性映射：

给定batch包含N个原始样本及其对应的对抗样本，对于每个样本都可以构成一对正例样本和（2N-1）对负例样本。对比学习的目标是从中学习正例样本对：
基于以上，最终的fine-tuning可以由以下的两个分类损失和一个对比损失构成：

不同于现有的正负例构造中的数据生成，作者引入了干扰样本的形式取代了普通的数据增强策略。并且这种策略是对clean的word embedding layer进行不可逆的干扰（其中 $r$ 是可以直接进行计算的，也不需要参与训练，无疑对大型的PLM来说是一个减负工作），使得生成的样本带有一定的噪声。有助于学习句子级别的噪声不变的表示。这种干扰样本生成的方式值得一看。整体模型的思想很简单，巧妙的避开了传统的数据增强，也使得模型更加适用于不同的分类任务。