美文网首页
论文阅读“A Simple and Effective Usag

论文阅读“A Simple and Effective Usag

作者: 掉了西红柿皮_Kee | 来源:发表于2023-05-10 16:58 被阅读0次

    Shi H, Wang C, Sakai T. A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2021: 315-320.

    对比学习作为一种自监督学习技术,可以在少量样本甚至在没有样本的情况下实现对模型的训练。在本文中,作者基于BERT提出自监督对比学习和小样本对比学习方法。

    本文贡献
    • 提出了多语言回翻(back translation, BT)和随机掩码(random masking, RM)两种用于生成正例样本的方法。
    • 提出了基于无监督数据增强的小样本对比学习方法。
    方法浅析
    该图展示了小样本对比学习和自监督学习的框架。对于每个小批次,主要包含了三个步骤,(1)选择或产生m对文本,对内文本互为正例样本而对间被作为负例样本;(2)将去掉停用词的文本对作为BERT的输入,然后将文本转化为潜在表示;(3)针对潜在表示设计对比损失,利用其对BERT进行微调。在学习过程完成后,将所有文本输入到微调过的BERT中得到对应的样本表示u_i(i=1,\cdots,N)用于聚类。
    • 小批次的构建
      在自监督对比学习中,整个数据集都被用于BERT的微调。首先从数据集中,随机选择m个文本。这里并不要求这些样本来自不同的类簇。对于选定的样本x_i, i=1,\cdots,mx_i'x_i''由不同语言BT或者RM产生的两个文本。原始的文本也包含在当前的小批次中,因此,小批次的大小被扩充为2m
      在小样本对比学习中,BERT被数据中包含的m对包含标签的样本微调。一个小批次的大小也为2m。每个文本对为来自同一个类簇的文本x_{c_i, i}, x_{c_i, j},不同的样本对严格的来自n个不同的类簇。为了对数据集中的文本进行充分的对比,这里建议m \geq n
    • 对比损失
      对比损失是文本对损失的均值。每个对的损失l(i, j),其中i=2p-1, j=2p在第p,(p=1,\cdots, m)个对,s_{i,j}v_iv_j的余弦相似度。\tau是温度参数。对比损失函数可以形式化为如下:
    • 无监督数据增强(UDA)
      UDA最开始在表情分析的任务中以二分类的任务目标被提出来。将UDA应用在小样本对比学习中,数据集D中的每个文本被回翻为D'。BERT将x_i以及其对应的D'中的三个文本x'_{i, q}(q=1,2,3)作为输入,并将输出喂到以\theta为参数的UDA模型中,得到对应的分布p_{\theta}(y|x_i)p_{\theta}(y|x'_{i,q})并进行对比学习:
    • 损失函数

      总体的损失函数如下:

    好像看过?

    相关文章

      网友评论

          本文标题:论文阅读“A Simple and Effective Usag

          本文链接:https://www.haomeiwen.com/subject/vzhjsdtx.html