Tang X, Dong C, Zhang W. Contrastive author-aware text clustering[J]. Pattern Recognition, 2022, 130: 108787.
摘要翻译
在User Generated Content (UGC)领域,作者 (IDs)是普遍存在的,并且在文本主题的类别划分中起着重要的作用。现有的文本聚类算法主要利用的是文本本身的信息,而作者在文本聚类的影响则没有被挖掘。为了减弱该问题,本文提出了Contrastive Author-aware的文本聚类方法-CAT。CAT不仅通过在特征表示文本中注入作者信息,还通过对比学习推动不同作者的文本表示的距离。具体来说,所提出的对比学习方法使用文本增强表示构造基于类簇的实例表示,从多视图的角度实现了实例与实例之间的对比。
以下是思路示意: 通常在文本聚类的过程中,主要关注的是文本的标题和正文两个视角,而文本对应的作者在文本主题的划分中也可以起到关键性作用。据作者统计,在不同的数据集中,作者对于主题的覆盖率只有很小的数值,如下图: 也就是说,根据作者,可以将文本对应的主题缩小到一个很小的范围;其次,在作者所覆盖的主题中,真正涉及到的主题将更少。因此,对作者信息的利用可以实现对文本聚类进行指导。问题定义
在用户产生数据的场景中,给定文本数据。给定文本由某用户产生的文本。。假设由标题-和正文-。数据集中涉及到的所有词形成一个词表。所提出的算法的目的是将这些文本分配到个类簇中,是一个预先给定的类簇个数。
模型浅析
CAT的模型架构如下:
其中分别表示标题、正文、作者和整体文本的表示。表示类簇的嵌入矩阵。是给定文档的输出类标签,分别对应于图中类簇实例对比损失、标题-文本和作者表示的对比损失以及标题和文本的对比损失。为简单起见,图中省略了对比学习中使用的负例文本。-
Author-aware 文本表示
公用word 矩阵,则是对应的作者embedding矩阵。是embedding的维度。
利用原始表示中的标题,正文和作者,构建每个文本的完整的表示。给定忽略下标的文本,首先为其元素(词:w和作者:u)构造类似lookUp table的矩阵:
使用Trainable Weighted Pooling (TWP)策略学习对应于的标题level和正文level表示。以学习标题level表示为例: 其中为可训练的权重参数,并由IDF初始化。
由此,可以利用获取关于的表示: 并且在系数的计算中引入了自注意力机制用于得到非负的系数: 为参数矩阵,q和k分别表示为如下: 基于上述计算可以得到关于q和不同level表示的权重向量,以获得d的最终表示。 -
基于类簇的文本表示增强
最后,利用概率和每个类簇的加权组合得到增强后的样本表示:
为形成基于类簇实例的对比,构造了基于类簇embedding表示的文本增强方法。具体做法如下:首先定义可训练的类簇表示矩阵。然后,计算每个文本D属于类簇k的概率:
这种方式类似于,将一个文本表示分解为几个基础向量及其对应权重的加权表示。好像?可以和词的分解相结合?寻找上层语义? -
对比学习的模型优化
从对比的细节来看,分子为正例对的相似度计算,分母是两种类型的负例对计算。类似的,可以给出和的计算方式: 最终,这三种类型的对比损失形成总的优化目标,以端到端的方式对模型进行优化:
在目标优化中主要涉及了三种类型的对比:类簇-实例对比损失,实例-实例之间的对比损失author-text,以及标题-正文的对比损失。
这种方法类似于之前组里利用作者领域相关性提升聚类分析的工作。在本文中,作者巧妙的将其和对比学习结合,形成了不同类型的文本对比,这里关于词元素和作者元素的lookUp tables的设计使得作者元素也被映射到一个作者语义空间。虽然这里不会像预训练语言模型一样相同的词有不同的意义,比如一个作者可以钻研不同的领域,即在不同的文本下,虽然对应同一个作者但是其embedding表示不一样,但是这种lookUp的形式至少满足了将离散的变量转换到密集语义空间。相比于使用AE直接进行重构,学习作者的embedding表示,这种形式的学习貌似更加具有语义上的可解释性。后续的探索可以和语义到情感空间转化的方式结合起来,扩展对于非上下文文本的进一步探索。
网友评论