Xu S, Zhang X, Wu Y, et al. Sequence level contrastive learning for text summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(10): 11556-11565.
摘要导读
对比学习模型在无监督视觉表示学习中取得了巨大的成功,它最大限度地提高了同一图像的不同视图的特征表示之间的相似性,同时最小化了不同图像的视图的特征表示之间的相似性。在文本摘要中,输出的摘要是输入文档的一种较短的形式,它们具有相似的含义。
本文作者提出了一个监督abstractive文本摘要的对比学习模型,其中将文档、其真实摘要及其模型生成的摘要视为相同样本表示的不同视图,并在训练过程中最大化它们之间的相似性。在实验的部分,通过对seq2seq文本生成模型BART应用该对比损失,在文本摘要任务上展现了有效的提升。
动机:
具体来说,文档中可能包含与其摘要不同的(或不必要的)信息。在训练过程中,文档和摘要之间的对比目标实际上鼓励模型从文档中编码重要的(和必要的)信息,否则文档的表示和摘要之间的距离将会很大(目标是更新模型参数以使其更小)。更加直观地说,从文档中编码重要信息的能力将有助于生成更好的摘要。
Abstractive文本摘要
在文本摘要任务中,一般将document作为长token序列,而将summary作为短token序列。将其都转换为token输入形式,可以用和分别表示document和summary:
给定可以一个接一个的预测中的每个token。这里使用包含encoder transformer和decoder transformer的transformer模型。首先使用encoder transformer 将输入文本映射为如下的隐状态序列: 假设前个tokens已经生成了,当前需要生成。也就是说,decoder transformer需要先计算时刻对应的隐藏状态: 在训练的过程中,基于transformer的性质,可以并行得到 的概率可以用线性映射和softmax来估计 最终Abstractive文本摘要模型的损失函数如下:模型浅析(SeqCo: Sequence Level Contrastive Learning for Text Summarization)
主要思想:在文本摘要中,摘要是输入文档的较短形式,它们应该传达相同的含义。因此,至少在某些类型的转换之后,和在语义空间中应该很接近。
因此,基于对比学习的思想,该模型主要分为三个过程,分别为Sequence Representation,Sequence Similarity和Training。
- Sequence Representation
假设有两个序列和。在最终的目标函数中,和可以是文档及其真实摘要,文档及其生成的摘要,或者真实摘要和生成的摘要,具体的形式如下: 在进行相似度计算之前,需要首先将输入的token转换为隐藏表示序列。作者这里设置了两种映射函数:
- 无条件的,这里复用了seq2seq模型中的encoder部分: 是一个前馈网络,为编码提供多样性。
- 有条件的,其中考虑了输入序列。具体形式如下: 在使用了作为额外的输入可以较为准确的对进行编码。在对比训练中,使用可以强制该目标同时优化摘要模型的编码器和解码器。
- Sequence Similarity
通过对映射的定义,可以通过不同的参数和对两个序列进行编码: 为很好的利用两个序列之间word-to-word的相互影响,这里引入了cross-attention: 其中MultiHeadAttn为多头注意力机制模块,三个参数分为代表query、key和value三个矩阵。通过这样的计算,可以做到和具有相同的size。由此,就可以得到两个序列之间的相似性:
cross-attention的好处:
(1)将两个序列之间所有的token对都纳入了考虑,直观上比基于[CLS]的pooling方法更加强大;
(2)可以解决两个seq不等长的问题,使得后续操作更加方便。
针对于[CLS]的相似度计算,可以表示为:
其中,和分别是和在[CLS]的编码结果表示,代表的是整个序列的嵌入表示。因此可以直接对两个序列的相似度进行计算。相似的,是前馈神经网络。- Training
根据需要使得和尽量相似的训练目标,模型最小化如下损失: 在模型参数更新中,为了避免平凡解,模型采用的是对其中一个参数进行梯度更新,另一个则采用的是moving average:即在得到参数的情况下: 表示对上一轮参数的保留度。
由于的计算并不对称,因此两个序列之间的相似性进一步表示为: 由于的通用性,为更好的区分在相似度计算时使用的是哪个映射函数,这里重新将细分为和。最终的损失函数为:
其实本文提出的是一种较为直接的思想,即原始输入文本和其对应的摘要在语义上具有相似性。当中使用到的cross-attention很好的解决了输入序列长度不一致的问题;并且以交叉的形式考虑了两个序列中每个token对之间的相互作用。
膜拜AAAI大佬
网友评论