论文阅读“Sequence Level Contrastive

作者: 掉了西红柿皮_Kee | 来源:发表于2022-11-21 09:14 被阅读0次

Xu S, Zhang X, Wu Y, et al. Sequence level contrastive learning for text summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(10): 11556-11565.

摘要导读

对比学习模型在无监督视觉表示学习中取得了巨大的成功，它最大限度地提高了同一图像的不同视图的特征表示之间的相似性，同时最小化了不同图像的视图的特征表示之间的相似性。在文本摘要中，输出的摘要是输入文档的一种较短的形式，它们具有相似的含义。

本文作者提出了一个监督abstractive文本摘要的对比学习模型，其中将文档、其真实摘要及其模型生成的摘要视为相同样本表示的不同视图，并在训练过程中最大化它们之间的相似性。在实验的部分，通过对seq2seq文本生成模型BART应用该对比损失，在文本摘要任务上展现了有效的提升。

动机：
具体来说，文档中可能包含与其摘要不同的（或不必要的）信息。在训练过程中，文档和摘要之间的对比目标实际上鼓励模型从文档中编码重要的（和必要的）信息，否则文档的表示和摘要之间的距离将会很大（目标是更新模型参数以使其更小）。更加直观地说，从文档中编码重要信息的能力将有助于生成更好的摘要。

Abstractive文本摘要

在文本摘要任务中，一般将document作为长token序列，而将summary作为短token序列。将其都转换为token输入形式，可以用 $X$ 和 $Y$ 分别表示document和summary：

给定

X

可以一个接一个的预测

Y

中的每个token。这里使用包含encoder transformer和decoder transformer的transformer模型。首先使用encoder transformer

Trans^E(X)

将输入文本

X

映射为如下的隐状态序列：

假设前

t-1

个tokens

y_{1:t-1}

已经生成了，当前需要生成

y_t

。也就是说，decoder transformer需要先计算

t

时刻对应的隐藏状态

o_t

：

在训练的过程中，基于transformer的性质，可以并行得到

O=(o_1, \cdots,o_{|Y|})

y_t

的概率可以用线性映射和softmax来估计

最终Abstractive文本摘要模型的损失函数如下：

模型浅析（SeqCo: Sequence Level Contrastive Learning for Text Summarization）

主要思想：在文本摘要中，摘要 $Y$ 是输入文档 $X$ 的较短形式，它们应该传达相同的含义。因此，至少在某些类型的转换之后， $X$ 和 $Y$ 在语义空间中应该很接近。
因此，基于对比学习的思想，该模型主要分为三个过程，分别为Sequence Representation，Sequence Similarity和Training。

Sequence Representation
假设有两个序列 $S_i=(w_0^i, w_1^i, \cdots, w_{|S_i|}^i,)$ 和 $S_j=(w_0^j, w_1^j, \cdots, w_{|S_j|}^j,)$ 。在最终的目标函数中， $S_i$ 和 $S_j$ 可以是文档 $X$ 及其真实摘要 $Y$ ，文档 $X$ 及其生成的摘要，或者真实摘要 $X$ 和生成的摘要 $Y$ ，具体的形式如下：在进行相似度计算之前，需要首先将输入的token转换为隐藏表示序列。作者这里设置了两种映射函数：

无条件的 $f_\theta^E$ ，这里复用了seq2seq模型中的encoder部分： $g(\cdot)$ 是一个前馈网络，为编码 $S_i$ 提供多样性。
有条件的 $f_\theta^D$ ，其中考虑了输入序列。具体形式如下：在 $f_\theta^D$ 使用了 $X$ 作为额外的输入可以较为准确的对 $S_i$ 进行编码。在对比训练中，使用 $f_\theta^D$ 可以强制该目标同时优化摘要模型的编码器和解码器。

Sequence Similarity
通过对映射的定义，可以通过不同的参数 $\theta$ 和 $\xi$ 对两个序列进行编码：为很好的利用两个序列之间word-to-word的相互影响，这里引入了cross-attention：其中MultiHeadAttn为多头注意力机制模块，三个参数分为代表query、key和value三个矩阵。通过这样的计算，可以做到 $\tilde{H^i}$ 和 $H^j$ 具有相同的size。由此，就可以得到两个序列之间的相似性：

cross-attention的好处：
（1）将两个序列之间所有的token对都纳入了考虑，直观上比基于[CLS]的pooling方法更加强大；
（2）可以解决两个seq不等长的问题，使得后续操作更加方便。

针对于[CLS]的相似度计算，可以表示为：

其中，

h_0^i

和

h_0^j

分别是

S_i

和

S_j

在[CLS]的编码结果表示，代表的是整个序列的嵌入表示。因此可以直接对两个序列的相似度进行计算。相似的，

q

是前馈神经网络。

Training
根据需要使得 $S_i$ 和 $S_j$ 尽量相似的训练目标，模型最小化如下损失：在模型参数更新中，为了避免平凡解，模型采用的是对其中一个参数进行梯度更新，另一个则采用的是moving average：即在得到参数 $\theta$ 的情况下： $\xi$ 表示对上一轮参数 $\xi$ 的保留度。
由于 $\mathcal{L}_{\theta,\xi}(S_i, S_j)$ 的计算并不对称，因此两个序列之间的相似性进一步表示为：由于 $f_\theta$ 的通用性，为更好的区分在相似度计算时使用的是哪个映射函数，这里重新将 $\mathcal{L}$ 细分为 $\mathcal{L}^E$ 和 $\mathcal{L}^D$ 。最终的损失函数为：