美文网首页
论文阅读“Contrastive author-aware te

论文阅读“Contrastive author-aware te

作者: 掉了西红柿皮_Kee | 来源:发表于2023-02-24 10:32 被阅读0次

    Tang X, Dong C, Zhang W. Contrastive author-aware text clustering[J]. Pattern Recognition, 2022, 130: 108787.

    摘要翻译

    在User Generated Content (UGC)领域,作者 (IDs)是普遍存在的,并且在文本主题的类别划分中起着重要的作用。现有的文本聚类算法主要利用的是文本本身的信息,而作者在文本聚类的影响则没有被挖掘。为了减弱该问题,本文提出了Contrastive Author-aware的文本聚类方法-CAT。CAT不仅通过在特征表示文本中注入作者信息,还通过对比学习推动不同作者的文本表示的距离。具体来说,所提出的对比学习方法使用文本增强表示构造基于类簇的实例表示,从多视图的角度实现了实例与实例之间的对比。

    以下是思路示意: 通常在文本聚类的过程中,主要关注的是文本的标题和正文两个视角,而文本对应的作者在文本主题的划分中也可以起到关键性作用。据作者统计,在不同的数据集中,作者对于主题的覆盖率只有很小的数值,如下图: 也就是说,根据作者,可以将文本对应的主题缩小到一个很小的范围;其次,在作者所覆盖的主题中,真正涉及到的主题将更少。因此,对作者信息的利用可以实现对文本聚类进行指导。
    问题定义

    在用户产生数据的场景中,给定文本数据\mathcal{D}=\{D_1, \cdots, D_{|\mathcal{D}|}\}。给定文本由某用户u \in \mathcal{U}产生的文本D\mathcal{U}=\{u_1, \cdots, u_{|\mathcal{U}|}\}。假设D由标题-T=\{w_1,\cdots, w_{|T|}\}和正文-B=\{w_1,\cdots,w_{|B|}\}。数据集中涉及到的所有词形成一个词表\mathcal{V}。所提出的算法的目的是将这些文本分配到K个类簇中,K是一个预先给定的类簇个数。

    模型浅析

    CAT的模型架构如下:

    其中t、b、u、d分别表示标题、正文、作者和整体文本的表示。C表示类簇的嵌入矩阵。k是给定文档d的输出类标签,\mathcal{L1、L2、L3}分别对应于图中类簇实例对比损失、标题-文本和作者表示的对比损失以及标题和文本的对比损失。为简单起见,图中省略了对比学习中使用的负例文本。
    • Author-aware 文本表示
      利用原始表示中的标题,正文和作者,构建每个文本的完整的表示。给定忽略下标的文本D=\{u, T, B\},首先为其元素(词:w和作者:u)构造类似lookUp table的矩阵:

      T, B公用word 矩阵E^W \in \mathbb{R}^{Z\times|\mathcal{V}|}E^U\in \mathbb{R}^{Z\times|\mathcal{U}|}则是对应的作者embedding矩阵。Z是embedding的维度。
      使用Trainable Weighted Pooling (TWP)策略学习对应于D的标题level和正文level表示。以学习标题level表示t为例: 其中\omega_i为可训练的权重参数,并由IDF初始化。
      由此,可以利用u,t,b获取关于d的表示: 并且在系数的计算中引入了自注意力机制用于得到非负的系数: W为参数矩阵,q和k分别表示为如下: 基于上述计算可以得到关于q和不同level表示的权重向量\gamma=[\gamma_1,\gamma_2,\gamma_3],以获得d的最终表示。
    • 基于类簇的文本表示增强
      为形成基于类簇实例的对比,构造了基于类簇embedding表示的文本增强方法。具体做法如下:首先定义可训练的类簇表示矩阵C \in \mathbb{R}^{Z \times K}。然后,计算每个文本D属于类簇k的概率:

      最后,利用概率和每个类簇的加权组合得到增强后的样本表示:
      这种方式类似于,将一个文本表示分解为几个基础向量及其对应权重的加权表示。好像?可以和词的分解相结合?寻找上层语义?
    • 对比学习的模型优化
      在目标优化中主要涉及了三种类型的对比:类簇-实例对比损失\mathcal{L}_1,实例-实例之间的对比损失author-text\mathcal{L}_2,以及标题-正文的对比损失\mathcal{L}_3

      从对比的细节来看,分子为正例对的相似度计算,分母是两种类型的负例对计算。类似的,可以给出\mathcal{L}_2\mathcal{L}_3的计算方式: 最终,这三种类型的对比损失形成总的优化目标,以端到端的方式对模型进行优化:

    这种方法类似于之前组里利用作者领域相关性提升聚类分析的工作。在本文中,作者巧妙的将其和对比学习结合,形成了不同类型的文本对比,这里关于词元素和作者元素的lookUp tables的设计使得作者元素也被映射到一个作者语义空间。虽然这里不会像预训练语言模型一样相同的词有不同的意义,比如一个作者可以钻研不同的领域,即在不同的文本下,虽然对应同一个作者但是其embedding表示不一样,但是这种lookUp的形式至少满足了将离散的变量转换到密集语义空间。相比于使用AE直接进行重构,学习作者的embedding表示,这种形式的学习貌似更加具有语义上的可解释性。后续的探索可以和语义到情感空间转化的方式结合起来,扩展对于非上下文文本的进一步探索。

    相关文章

      网友评论

          本文标题:论文阅读“Contrastive author-aware te

          本文链接:https://www.haomeiwen.com/subject/ujbzkdtx.html