Xu S, Zhang X, Wu Y, et al. Sequence level contrastive learning for text summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(10): 11556-11565.
摘要导读
对比学习模型在无监督视觉表示学习中取得了巨大的成功,它最大限度地提高了同一图像的不同视图的特征表示之间的相似性,同时最小化了不同图像的视图的特征表示之间的相似性。在文本摘要中,输出的摘要是输入文档的一种较短的形式,它们具有相似的含义。

本文作者提出了一个监督abstractive文本摘要的对比学习模型,其中将文档、其真实摘要及其模型生成的摘要视为相同样本表示的不同视图,并在训练过程中最大化它们之间的相似性。在实验的部分,通过对seq2seq文本生成模型BART应用该对比损失,在文本摘要任务上展现了有效的提升。
动机:
具体来说,文档中可能包含与其摘要不同的(或不必要的)信息。在训练过程中,文档和摘要之间的对比目标实际上鼓励模型从文档中编码重要的(和必要的)信息,否则文档的表示和摘要之间的距离将会很大(目标是更新模型参数以使其更小)。更加直观地说,从文档中编码重要信息的能力将有助于生成更好的摘要。
Abstractive文本摘要
在文本摘要任务中,一般将document作为长token序列,而将summary作为短token序列。将其都转换为token输入形式,可以用和
分别表示document和summary:







模型浅析(SeqCo: Sequence Level Contrastive Learning for Text Summarization)
主要思想:在文本摘要中,摘要是输入文档
的较短形式,它们应该传达相同的含义。因此,至少在某些类型的转换之后,
和
在语义空间中应该很接近。
因此,基于对比学习的思想,该模型主要分为三个过程,分别为Sequence Representation,Sequence Similarity和Training。
- Sequence Representation
假设有两个序列和
。在最终的目标函数中,
和
可以是文档
及其真实摘要
,文档
及其生成的摘要,或者真实摘要
和生成的摘要
,具体的形式如下:
在进行相似度计算之前,需要首先将输入的token转换为隐藏表示序列。作者这里设置了两种映射函数:
- 无条件的
,这里复用了seq2seq模型中的encoder部分:
是一个前馈网络,为编码
提供多样性。
- 有条件的
,其中考虑了输入序列。具体形式如下:
在
使用了
作为额外的输入可以较为准确的对
进行编码。在对比训练中,使用
可以强制该目标同时优化摘要模型的编码器和解码器。
- Sequence Similarity
通过对映射的定义,可以通过不同的参数和
对两个序列进行编码:
为很好的利用两个序列之间word-to-word的相互影响,这里引入了cross-attention:
其中MultiHeadAttn为多头注意力机制模块,三个参数分为代表query、key和value三个矩阵。通过这样的计算,可以做到
和
具有相同的size。由此,就可以得到两个序列之间的相似性:
cross-attention的好处:
(1)将两个序列之间所有的token对都纳入了考虑,直观上比基于[CLS]的pooling方法更加强大;
(2)可以解决两个seq不等长的问题,使得后续操作更加方便。
针对于[CLS]的相似度计算,可以表示为:

- Training
根据需要使得和
尽量相似的训练目标,模型最小化如下损失:
在模型参数更新中,为了避免平凡解,模型采用的是对其中一个参数进行梯度更新,另一个则采用的是moving average:即在得到参数
的情况下:
表示对上一轮参数
的保留度。
由于的计算并不对称,因此两个序列之间的相似性进一步表示为:
由于
的通用性,为更好的区分在相似度计算时使用的是哪个映射函数,这里重新将
细分为
和
。最终的损失函数为:
其实本文提出的是一种较为直接的思想,即原始输入文本和其对应的摘要在语义上具有相似性。当中使用到的cross-attention很好的解决了输入序列长度不一致的问题;并且以交叉的形式考虑了两个序列中每个token对之间的相互作用。

网友评论