前言

这两年对比学习是一个研究热点，今年的ACL会议有16篇关于对比学习的paper，今天分享其中的一篇——基于语义负样本的对比学习来提升自然语言理解(CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding)。对比学习(Contrastive Learning)最先应用在图像领域，其核心思想是拉近正样本之间的距离，同时推开正负样本之间的距离，进而提高表征学习能力，而其关键步骤是如何构造正负样本。不同于图像领域，文本数据主要利用数据增强的方式去构造正负样本，如增加词、随机删除、dropout方式、或同义词替换，这些方式都会对文本的语义产生改变，甚至影响样本所属的label。这样就带来噪声影响，如果噪声的负影响超过对比学习的正影响，那就损害模型的表现。针对上述问题，文本提出构造语义否定的样本作为负样，在预训练中加入对比学习，提升下游任务。论文开源的代码为：https://github.com/kandorm/CLINE。

模型

从模型图可以看出，论文的思想很简单：将原文本的一些词做同义词替换生成的样本作为正样本，将原文本的一些词做反义词替换生成的样本作为负样本，然后进行对比表征学习。

对比其他类似的paper，个人觉得本篇paper的创新点有两个：
1、利用反义词替换构造负样本
2、在训练任务中增加替换词预测任务(Replaced Token Detection Objective)

这样文中提到的预训练任务有三个目标，第一个是MASK预测任务，第二个是替代词任务，第三个是对比学习任务，第一个就是BERT常规任务。
关于第二个任务文中如此操作：对序列进行二分类预测：

判断每个token是否被替换，取值1为替换，0反之。则对应的损失函数为：

关于第三个任务，每个样本与生成的两个样本进行对比学习，其计算方式如下：

则整体的训练目标为：

实验

作者是在RoBERTa-base模型的基础上，使用BookCorpus 和English Wikipedia 数据集来训练自己的CLINE模型，主要在文本分类任务进行了测试，主要结果如下：

结语

论文的思想很简单，也很好理解。分享的目的正是由于它简洁，有效果，能容易在我们实践项目中尝试。同时个人也有些疑问：1）文中提出的否定词替换构造负样本，其实跟常规的方式思路一致，也同样有噪声存在，并不能凸显这种方式的优越性；2)文中提出的预训练模型CLINE只在文本分类任务进行了对比测试，没有在阅读理解这样复杂的任务进行对比。个人想法：如何将对比学习更好的应用到NLP领域，在构造正负样本上，觉得更应该从全局的角度去生成，目前主流采用基于词的粒度进行操作，是一种局部的方式，生成的样本很多根本就不在语料库中出现过，类似构造了一个人类没用过的语句，如此也会带来语义偏差的学习。

更多文章可关注笔者公众号：自然语言处理算法与实践