美文网首页
论文阅读“Sequence Level Contrastive

论文阅读“Sequence Level Contrastive

作者: 掉了西红柿皮_Kee | 来源:发表于2022-11-21 09:14 被阅读0次

    Xu S, Zhang X, Wu Y, et al. Sequence level contrastive learning for text summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(10): 11556-11565.

    摘要导读

    对比学习模型在无监督视觉表示学习中取得了巨大的成功,它最大限度地提高了同一图像的不同视图的特征表示之间的相似性,同时最小化了不同图像的视图的特征表示之间的相似性。在文本摘要中,输出的摘要是输入文档的一种较短的形式,它们具有相似的含义。

    本文作者提出了一个监督abstractive文本摘要的对比学习模型,其中将文档、其真实摘要及其模型生成的摘要视为相同样本表示的不同视图,并在训练过程中最大化它们之间的相似性。在实验的部分,通过对seq2seq文本生成模型BART应用该对比损失,在文本摘要任务上展现了有效的提升。

    动机:
    具体来说,文档中可能包含与其摘要不同的(或不必要的)信息。在训练过程中,文档和摘要之间的对比目标实际上鼓励模型从文档中编码重要的(和必要的)信息,否则文档的表示和摘要之间的距离将会很大(目标是更新模型参数以使其更小)。更加直观地说,从文档中编码重要信息的能力将有助于生成更好的摘要。

    Abstractive文本摘要

    在文本摘要任务中,一般将document作为长token序列,而将summary作为短token序列。将其都转换为token输入形式,可以用XY分别表示document和summary:

    给定X可以一个接一个的预测Y中的每个token。这里使用包含encoder transformer和decoder transformer的transformer模型。首先使用encoder transformer Trans^E(X)将输入文本X映射为如下的隐状态序列: 假设前t-1个tokensy_{1:t-1}已经生成了,当前需要生成y_t。也就是说,decoder transformer需要先计算t时刻对应的隐藏状态o_t 在训练的过程中,基于transformer的性质,可以并行得到O=(o_1, \cdots,o_{|Y|}) y_t的概率可以用线性映射和softmax来估计 最终Abstractive文本摘要模型的损失函数如下:
    模型浅析(SeqCo: Sequence Level Contrastive Learning for Text Summarization)

    主要思想:在文本摘要中,摘要Y是输入文档X的较短形式,它们应该传达相同的含义。因此,至少在某些类型的转换之后,XY在语义空间中应该很接近。
    因此,基于对比学习的思想,该模型主要分为三个过程,分别为Sequence Representation,Sequence Similarity和Training。

    • Sequence Representation
      假设有两个序列S_i=(w_0^i, w_1^i, \cdots, w_{|S_i|}^i,)S_j=(w_0^j, w_1^j, \cdots, w_{|S_j|}^j,)。在最终的目标函数中,S_iS_j可以是文档X及其真实摘要Y,文档X及其生成的摘要,或者真实摘要X和生成的摘要Y,具体的形式如下: 在进行相似度计算之前,需要首先将输入的token转换为隐藏表示序列。作者这里设置了两种映射函数:
    1. 无条件的f_\theta^E,这里复用了seq2seq模型中的encoder部分: g(\cdot)是一个前馈网络,为编码S_i提供多样性。
    2. 有条件的f_\theta^D,其中考虑了输入序列。具体形式如下: f_\theta^D使用了X作为额外的输入可以较为准确的对S_i进行编码。在对比训练中,使用f_\theta^D可以强制该目标同时优化摘要模型的编码器和解码器。
    • Sequence Similarity
      通过对映射的定义,可以通过不同的参数\theta\xi对两个序列进行编码: 为很好的利用两个序列之间word-to-word的相互影响,这里引入了cross-attention: 其中MultiHeadAttn为多头注意力机制模块,三个参数分为代表query、key和value三个矩阵。通过这样的计算,可以做到\tilde{H^i}H^j具有相同的size。由此,就可以得到两个序列之间的相似性:

    cross-attention的好处:
    (1)将两个序列之间所有的token对都纳入了考虑,直观上比基于[CLS]的pooling方法更加强大;
    (2)可以解决两个seq不等长的问题,使得后续操作更加方便。

    针对于[CLS]的相似度计算,可以表示为:

    其中,h_0^ih_0^j分别是S_iS_j在[CLS]的编码结果表示,代表的是整个序列的嵌入表示。因此可以直接对两个序列的相似度进行计算。相似的,q是前馈神经网络。
    • Training
      根据需要使得S_iS_j尽量相似的训练目标,模型最小化如下损失: 在模型参数更新中,为了避免平凡解,模型采用的是对其中一个参数进行梯度更新,另一个则采用的是moving average:即在得到参数\theta的情况下: \xi表示对上一轮参数\xi的保留度。
      由于\mathcal{L}_{\theta,\xi}(S_i, S_j)的计算并不对称,因此两个序列之间的相似性进一步表示为: 由于f_\theta的通用性,为更好的区分在相似度计算时使用的是哪个映射函数,这里重新将\mathcal{L}细分为\mathcal{L}^E\mathcal{L}^D。最终的损失函数为:

    其实本文提出的是一种较为直接的思想,即原始输入文本和其对应的摘要在语义上具有相似性。当中使用到的cross-attention很好的解决了输入序列长度不一致的问题;并且以交叉的形式考虑了两个序列中每个token对之间的相互作用。


    膜拜AAAI大佬

    相关文章

      网友评论

          本文标题:论文阅读“Sequence Level Contrastive

          本文链接:https://www.haomeiwen.com/subject/qggwxdtx.html