论文阅读“Contrastive author-aware te

作者: 掉了西红柿皮_Kee | 来源:发表于2023-02-24 10:32 被阅读0次

论文阅读“Contrastive author-aware te
GraphCL：基于数据增强的图对比学习
论文阅读“Graph Contrastive Clusterin
论文阅读“ConSERT: A Contrastive Fram
*论文阅读“DeCLUTR: Deep Contrastive
论文阅读"Deep Structural Contrastive
论文阅读“A Contrastive Learning Appr
论文阅读“Contrastive and attentive g
论文阅读“Sequence Level Contrastive
JOAO：自动化选择数据增强的GraphCL

Tang X, Dong C, Zhang W. Contrastive author-aware text clustering[J]. Pattern Recognition, 2022, 130: 108787.

摘要翻译

在User Generated Content (UGC)领域，作者 (IDs)是普遍存在的，并且在文本主题的类别划分中起着重要的作用。现有的文本聚类算法主要利用的是文本本身的信息，而作者在文本聚类的影响则没有被挖掘。为了减弱该问题，本文提出了Contrastive Author-aware的文本聚类方法-CAT。CAT不仅通过在特征表示文本中注入作者信息，还通过对比学习推动不同作者的文本表示的距离。具体来说，所提出的对比学习方法使用文本增强表示构造基于类簇的实例表示，从多视图的角度实现了实例与实例之间的对比。

以下是思路示意：

通常在文本聚类的过程中，主要关注的是文本的标题和正文两个视角，而文本对应的作者在文本主题的划分中也可以起到关键性作用。据作者统计，在不同的数据集中，作者对于主题的覆盖率只有很小的数值，如下图：

也就是说，根据作者，可以将文本对应的主题缩小到一个很小的范围；其次，在作者所覆盖的主题中，真正涉及到的主题将更少。因此，对作者信息的利用可以实现对文本聚类进行指导。

问题定义

在用户产生数据的场景中，给定文本数据 $\mathcal{D}=\{D_1, \cdots, D_{|\mathcal{D}|}\}$ 。给定文本由某用户 $u \in \mathcal{U}$ 产生的文本 $D$ 。 $\mathcal{U}=\{u_1, \cdots, u_{|\mathcal{U}|}\}$ 。假设 $D$ 由标题- $T=\{w_1,\cdots, w_{|T|}\}$ 和正文- $B=\{w_1,\cdots,w_{|B|}\}$ 。数据集中涉及到的所有词形成一个词表 $\mathcal{V}$ 。所提出的算法的目的是将这些文本分配到 $K$ 个类簇中， $K$ 是一个预先给定的类簇个数。

模型浅析

CAT的模型架构如下：

其中

t、b、u、d

分别表示标题、正文、作者和整体文本的表示。

C

表示类簇的嵌入矩阵。

k

是给定文档

d

的输出类标签，

\mathcal{L1、L2、L3}

分别对应于图中类簇实例对比损失、标题-文本和作者表示的对比损失以及标题和文本的对比损失。为简单起见，图中省略了对比学习中使用的负例文本。

Author-aware 文本表示
利用原始表示中的标题，正文和作者，构建每个文本的完整的表示。给定忽略下标的文本 $D=\{u, T, B\}$ ，首先为其元素（词：w和作者：u）构造类似lookUp table的矩阵：
$T, B$ 公用word 矩阵 $E^W \in \mathbb{R}^{Z\times|\mathcal{V}|}$ ， $E^U\in \mathbb{R}^{Z\times|\mathcal{U}|}$ 则是对应的作者embedding矩阵。 $Z$ 是embedding的维度。
使用Trainable Weighted Pooling (TWP)策略学习对应于 $D$ 的标题level和正文level表示。以学习标题level表示 $t$ 为例：其中 $\omega_i$ 为可训练的权重参数，并由IDF初始化。
由此，可以利用 $u,t,b$ 获取关于 $d$ 的表示：并且在系数的计算中引入了自注意力机制用于得到非负的系数： $W$ 为参数矩阵，q和k分别表示为如下：基于上述计算可以得到关于q和不同level表示的权重向量 $\gamma=[\gamma_1,\gamma_2,\gamma_3]$ ,以获得d的最终表示。
基于类簇的文本表示增强
为形成基于类簇实例的对比，构造了基于类簇embedding表示的文本增强方法。具体做法如下：首先定义可训练的类簇表示矩阵 $C \in \mathbb{R}^{Z \times K}$ 。然后，计算每个文本D属于类簇k的概率：
最后，利用概率和每个类簇的加权组合得到增强后的样本表示：
这种方式类似于，将一个文本表示分解为几个基础向量及其对应权重的加权表示。好像？可以和词的分解相结合？寻找上层语义？
对比学习的模型优化
在目标优化中主要涉及了三种类型的对比：类簇-实例对比损失 $\mathcal{L}_1$ ，实例-实例之间的对比损失author-text $\mathcal{L}_2$ ，以及标题-正文的对比损失 $\mathcal{L}_3$ 。

从对比的细节来看，分子为正例对的相似度计算，分母是两种类型的负例对计算。类似的，可以给出 $\mathcal{L}_2$ 和 $\mathcal{L}_3$ 的计算方式：最终，这三种类型的对比损失形成总的优化目标，以端到端的方式对模型进行优化：

这种方法类似于之前组里利用作者领域相关性提升聚类分析的工作。在本文中，作者巧妙的将其和对比学习结合，形成了不同类型的文本对比，这里关于词元素和作者元素的lookUp tables的设计使得作者元素也被映射到一个作者语义空间。虽然这里不会像预训练语言模型一样相同的词有不同的意义，比如一个作者可以钻研不同的领域，即在不同的文本下，虽然对应同一个作者但是其embedding表示不一样，但是这种lookUp的形式至少满足了将离散的变量转换到密集语义空间。相比于使用AE直接进行重构，学习作者的embedding表示，这种形式的学习貌似更加具有语义上的可解释性。后续的探索可以和语义到情感空间转化的方式结合起来，扩展对于非上下文文本的进一步探索。

论文阅读“Contrastive author-aware te
Tang X, Dong C, Zhang W. Contrastive author-aware text cl...
GraphCL：基于数据增强的图对比学习
论文标题：Graph Contrastive Learning with Augmentations论文链接：ht...
论文阅读“Graph Contrastive Clusterin
Zhong H, Wu J, Chen C, et al. Graph Contrastive Clusterin...
论文阅读“ConSERT: A Contrastive Fram
Yan Y, Li R, Wang S, et al. ConSERT: A Contrastive Framew...
*论文阅读“DeCLUTR: Deep Contrastive
Giorgi J M, Nitski O, Bader G D, et al. Declutr: Deep con...
论文阅读"Deep Structural Contrastive
Peng B, Zhu W. Deep Structural Contrastive Subspace Clust...
论文阅读“A Contrastive Learning Appr
Aneja J, Schwing A, Kautz J, et al. A contrastive learnin...
论文阅读“Contrastive and attentive g
Wang R, Li L, Tao X, et al. Contrastive and attentive gra...
论文阅读“Sequence Level Contrastive
Xu S, Zhang X, Wu Y, et al. Sequence level contrastive le...
JOAO：自动化选择数据增强的GraphCL
论文标题：Graph Contrastive Learning Automated论文链接：https://arx...