Zhang, Z., Li, J. (2022). Topic-Features for Dialogue Summarization. In: Lu, W., Huang, S., Hong, Y., Zhou, X. (eds) Natural Language Processing and Chinese Computing. NLPCC 2022. Lecture Notes in Computer Science(), vol 13551. Springer, Cham. https://doi.org/10.1007/978-3-031-17120-8_26
摘要导读
像新闻报道和学术论文这样的文本基本来自于一个单一的说话者,并且结构良好。而对话往往来自于两个或更多的说话者用于交换信息。在这种情况下,对话中的主题或意图可能会发生变化,而且关键信息往往分散在不同说话人的话语中,这给抽象化的对话总结带来了挑战。由于噪音太大,加上对话的固有特点,传统的话题建模方法很难应用。为了有效地对整个对话进行建模并捕捉各种话题信息,本文提出了一种基于神经话题模型的话题特征方法,包括词级嵌入和对话级表示。首先,提出的方法引入了神经主题模型(NTM),它由两个子模块组成:推理模块和生成模块。推理模块利用神经网络来推断每个输入文本的话题分布,而生成模块则应用它来重构输入。基于输入对话的话题分布应该与相应的摘要一致这一假设,本文通过Kullback-Leibler(KL)散度来约束话题分布信息。其次,为了获得话题信息并从不同层面提取语义话题,本文从词层面和对话层面提取面向话题的嵌入信息,并将其应用于序列到序列模型的嵌入层。
对话摘要任务:其目的是压缩对话,将其中的主要信息提炼成更短的信息,这可以帮助人们有效地捕捉对话的重点,而不需要耗费时间进行对话阅读和理解。
问题形式化定义
给定对话,模型的目标是输出对话的总结
,其中
包含
个对话
,
则是由
个词构成的总结。
-th对话可表示为词序列的形式:


方法浅析
-
传统NTM
其中inference stage是传统VAE的encoder部分,用于生成输入文档的主题分布
,在generation stage则是则额外引入了主题表示
(随机初始化)和词表示
用于生成主题-词分布
:
那么对于给定样本其生成的Loss函数如下:
-
模型结构
通过改进NTM引入词级别和对话级别的语义表示在主题表示上的对齐,然后输入到BART中得到更好的编码表示:
-
本文有一个基本的假设:输入对话的主题分布应该与相应的摘要一致。首先给传统的NTM两个输入:
代表由词袋模型表示的对话,
表示对应的目标句子,即总结。这两个的主题表示应该是一致的:
除此之外,本文使用BART的词表示对
进行初始化,然后在生成阶段利用
和
得到词级别的主题表示和对话级别的主题表示:
具体在生成模块的操作如下:这一部分的Loss函数如下:
-
在第二阶段,具有Transformer结构的Seq2Seq模型被广泛用于对话总结任务中。编码器模块用于对输入的对话进行编码,而解码器则生成摘要。
词级别的主题嵌入表示作为一种额外的信息,分别加入了source和target中。以source这边的输入为例,具体可以表示为:
而从前序的NTM中,一方面可以得到词级别的话题嵌入,为每个词分配一个话题表示。另一方面,可以得到对话级别的话题表示,它总结了整个对话的话题信息。
a, 首先,整合词级别的主题嵌入信息
涉及到的嵌入表示分别为词嵌入Token Embedding,位置嵌入 Position Embedding和词级别主题表示 Topic Word Embedding。target侧的输入也是如此。
b,对话级别的主题嵌入信息
对话级别的主题嵌入信息给出了输入对话的概况。因此,在source这边,本文在引入词级别的主题信息之后,还融入了对话级别的主题嵌入表示,将其输入更新为: -
最终的两个阶段的联合损失函数如下:
本文通过改进NTM引入了不同级别的主题信息,使模型利用了数据集中所有的语义信息。妙啊!

网友评论