该论文采用层级式自注意力模型实现抽取式文档摘要,相比以前模型,训练中融入了先前句子向量的动态参数,并在CNN/Daily Mail和DUC2002上取得了出色的摘要成绩。
论文地址: https://arxiv.org/ftp/arxiv/papers/1805/1805.07799.pdf
引言
智能互联网在大数据时代产生了海量数据,高效准确的移动端数据摘要对人们的信息获取意义重大。基于神经网络构建的摘要模型能够更好地实现文档摘要,具有很高的研究及工程应用价值。
模型
HSSAS模型包括五大基本模块,分别如下所示:
词编码器
采用双向LSTM来对句子中的词进行编码,同时提取两个方向的语义信息,该编码器包括前向LSTM和后向LSTM,然后通过拼接来获取整个句子的隐藏层表示,每个单向LSTM包括u个隐层单元,则整个文档的词隐层向量可由单个隐层向量拼接而来,如以下公式所示。
词注意力层
该模型指出,注意力机制的核心在于针对每个词对句子语义贡献度的不同,来实现或多或少的编码表示。词编码器的目标是把一个变长句子转为固定长度的向量表征,在该过程中,整个文档的隐层表征为输入,权重矩阵作为输出,如以下公式所示。
其中,和都为可训练参数,特定句子向量为
和之积。
句子编码器
获取了每个句子的向量之后,即可以同样的方式来计算文档的向量。同样采用双向LSTM单元来计算每个句子的隐层表示向量,如以下公式所示:
整个文档的隐层表示可由每个句子的隐层表示拼接得出,其中N为该文档的句子数目,u为单个LSTM的隐层单元个数,可知的维度为N与2u之积。
句子向量
根据文档中每个句子对文档整体重要程度和语义贡献度,得出句子层级上的权重系数矩阵,进而结合文档整个,计算出该文档的向量表征d,如以下公式表示:
其中,和都为可训练参数,softmax分类器可将注意力层的权重系数向量进行归一化处理,其和为1。
分类层
该模型采用逻辑分类层生成每个句子的二值标签,来判断每个句子是否属于最终的摘要文本,分类判断标准取决于一系列摘要特征,包括句子的内容丰度,相对于文档的重要度,相对于累积摘要文本的新颖度,以及位置向量,每个句子的log似然度计算如以下公式所示:
其中,为第j个句子的二值摘要标签,为文档d中的句子数目。
以下为该模型的基本层级式架构:
HSSAS模型架构图在以上模型基本架构中,根据右侧的小字标注,自下而上分为字向量层,字编码器,字注意力层,句子向量,句子编码器,句子注意力层,文档表征层,融合向量层,逻辑判断层,摘要表征层。前3个子层构成字编码层,第4到第6这3个子层构成句子编码层。
该模型中的自注意力单元结构如下所示:
Self-attention 单元结构图该注意力机制以整个句子的LSTM隐藏状态表示层H为输入,以注意力权重向量a为输出,采用可训练的中间权重系数矩阵
和展开模型参数更新。
实验
该模型在CNN/Daily Mail和DUC2002两个公开数据集上进行了实验,结果如下两个表所示:
DUC2002测试结果由以上表格可见,该模型HSSAS在DUC2002上所有的ROUGE指标中均表现最优,这表明采用层级式自注意力结构能够显著提高句子和文档的向量表征,从而改进模型的摘要性能。
CNN/Daily Mail测试结果由以上表格可见,HSSAS模型在CNN/Daily Mail几乎所有的ROUGE指标中都是最佳表现,值得注意的是,新闻类文章中,常见的做法是把重要的信息放在文章的开始,参与对比的模型都利用了数据集的这一特点。
结论
总之,该模型有3个特点:
1.采用层级式映射结构,能够准确反映文档的语义分层特征。
2.采用结构化的自注意力单元机制,能够产生更为精确的词语级和句子级向量表征。
3.摘要特征在训练过程中,参考了先前句子的分类标签,更加动态的调整学习参数。
HSSAS模型表现优异,今后可以改进的方向包括:
1.采用sequence-to-sequence的强化学习机制来进一步优化训练过程,提高句子编码表征效果。
2.针对长句子,采用ROUGE以外的评估指标来评价模型的训练预测效果。
扫码关注公众号,获取更多新鲜论文解读
网友评论