Shi H, Wang C, Sakai T. A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2021: 315-320.
对比学习作为一种自监督学习技术,可以在少量样本甚至在没有样本的情况下实现对模型的训练。在本文中,作者基于BERT提出自监督对比学习和小样本对比学习方法。
本文贡献
- 提出了多语言回翻(back translation, BT)和随机掩码(random masking, RM)两种用于生成正例样本的方法。
- 提出了基于无监督数据增强的小样本对比学习方法。
方法浅析
该图展示了小样本对比学习和自监督学习的框架。对于每个小批次,主要包含了三个步骤,(1)选择或产生对文本,对内文本互为正例样本而对间被作为负例样本;(2)将去掉停用词的文本对作为BERT的输入,然后将文本转化为潜在表示;(3)针对潜在表示设计对比损失,利用其对BERT进行微调。在学习过程完成后,将所有文本输入到微调过的BERT中得到对应的样本表示用于聚类。- 小批次的构建
在自监督对比学习中,整个数据集都被用于BERT的微调。首先从数据集中,随机选择个文本。这里并不要求这些样本来自不同的类簇。对于选定的样本,和由不同语言BT或者RM产生的两个文本。原始的文本也包含在当前的小批次中,因此,小批次的大小被扩充为。
在小样本对比学习中,BERT被数据中包含的对包含标签的样本微调。一个小批次的大小也为。每个文本对为来自同一个类簇的文本,不同的样本对严格的来自个不同的类簇。为了对数据集中的文本进行充分的对比,这里建议。 - 对比损失
对比损失是文本对损失的均值。每个对的损失,其中在第个对,是和的余弦相似度。是温度参数。对比损失函数可以形式化为如下: - 无监督数据增强(UDA)
UDA最开始在表情分析的任务中以二分类的任务目标被提出来。将UDA应用在小样本对比学习中,数据集中的每个文本被回翻为。BERT将以及其对应的中的三个文本作为输入,并将输出喂到以为参数的UDA模型中,得到对应的分布和并进行对比学习: -
损失函数
总体的损失函数如下:
好像看过?
网友评论