IEEE Access | 一种抽取式文档摘要的层级式自注意力模

IEEE Access | 一种抽取式文档摘要的层级式自注意力模

作者: LC震荡电路 | 来源:发表于2019-03-26 20:16 被阅读2次

IEEE Access | 一种抽取式文档摘要的层级式自注意力模
Note - 中文分句
抽取式摘要生成
文本抽取式摘要
Embedding+抽取式摘要
CAN：点击率预估中特征交互作用02
年发文或在超20000篇路上，1个月接受，这本SCI在3~4分之
Match-LSTM & BiDAF
Attention Gate ResU-Net for Auto
1609.0

该论文采用层级式自注意力模型实现抽取式文档摘要，相比以前模型，训练中融入了先前句子向量的动态参数，并在CNN/Daily Mail和DUC2002上取得了出色的摘要成绩。

论文地址: https://arxiv.org/ftp/arxiv/papers/1805/1805.07799.pdf

引言

智能互联网在大数据时代产生了海量数据，高效准确的移动端数据摘要对人们的信息获取意义重大。基于神经网络构建的摘要模型能够更好地实现文档摘要，具有很高的研究及工程应用价值。

模型

HSSAS模型包括五大基本模块，分别如下所示：

词编码器

采用双向LSTM来对句子中的词进行编码，同时提取两个方向的语义信息，该编码器包括前向LSTM和后向LSTM，然后通过拼接来获取整个句子的隐藏层表示 $h_t$ ，每个单向LSTM包括u个隐层单元，则整个文档的词隐层向量 $H_s$ 可由单个隐层向量拼接而来，如以下公式所示。

词注意力层

该模型指出，注意力机制的核心在于针对每个词对句子语义贡献度的不同，来实现或多或少的编码表示。词编码器的目标是把一个变长句子转为固定长度的向量表征，在该过程中，整个文档的隐层表征 $H_s$ 为输入，权重矩阵 $a_s$ 作为输出，如以下公式所示。

其中， $w_{s1}$ 和 $w_{s2}$ 都为可训练参数，特定句子 $s_i$ 向量为

$H_s$ 和 $a_s$ 之积。

句子编码器

获取了每个句子的向量 $s_i$ 之后，即可以同样的方式来计算文档的向量。同样采用双向LSTM单元来计算每个句子的隐层表示向量，如以下公式所示：

整个文档的隐层表示 $H_d$ 可由每个句子的隐层表示 $h_{si}$ 拼接得出，其中N为该文档的句子数目，u为单个LSTM的隐层单元个数，可知 $H_d$ 的维度为N与2u之积。

句子向量

根据文档中每个句子对文档整体重要程度和语义贡献度，得出句子层级上的权重系数矩阵 $a_d$ ，进而结合文档整个 $H_d$ ，计算出该文档的向量表征d，如以下公式表示：

其中， $w_{s1}$ 和 $w_{s2}$ 都为可训练参数，softmax分类器可将注意力层的权重系数向量进行归一化处理，其和为1。

分类层

该模型采用逻辑分类层生成每个句子的二值标签，来判断每个句子是否属于最终的摘要文本，分类判断标准取决于一系列摘要特征，包括句子的内容丰度，相对于文档的重要度，相对于累积摘要文本的新颖度，以及位置向量，每个句子的log似然度计算如以下公式所示：

其中， $y_j^d$ 为第j个句子的二值摘要标签， $n_d$ 为文档d中的句子数目。

以下为该模型的基本层级式架构：

HSSAS模型架构图

在以上模型基本架构中，根据右侧的小字标注，自下而上分为字向量层，字编码器，字注意力层，句子向量，句子编码器，句子注意力层，文档表征层，融合向量层，逻辑判断层，摘要表征层。前3个子层构成字编码层，第4到第6这3个子层构成句子编码层。

该模型中的自注意力单元结构如下所示：

Self-attention 单元结构图

该注意力机制以整个句子的LSTM隐藏状态表示层H为输入，以注意力权重向量a为输出，采用可训练的中间权重系数矩阵 $w_{s1}$

和 $w_{s2}$ 展开模型参数更新。

实验

该模型在CNN/Daily Mail和DUC2002两个公开数据集上进行了实验，结果如下两个表所示：

DUC2002测试结果

由以上表格可见，该模型HSSAS在DUC2002上所有的ROUGE指标中均表现最优，这表明采用层级式自注意力结构能够显著提高句子和文档的向量表征，从而改进模型的摘要性能。

CNN/Daily Mail测试结果

由以上表格可见，HSSAS模型在CNN/Daily Mail几乎所有的ROUGE指标中都是最佳表现，值得注意的是，新闻类文章中，常见的做法是把重要的信息放在文章的开始，参与对比的模型都利用了数据集的这一特点。

结论

总之，该模型有3个特点：

1.采用层级式映射结构，能够准确反映文档的语义分层特征。

2.采用结构化的自注意力单元机制，能够产生更为精确的词语级和句子级向量表征。

3.摘要特征在训练过程中，参考了先前句子的分类标签，更加动态的调整学习参数。

HSSAS模型表现优异，今后可以改进的方向包括：

1.采用sequence-to-sequence的强化学习机制来进一步优化训练过程，提高句子编码表征效果。

2.针对长句子，采用ROUGE以外的评估指标来评价模型的训练预测效果。

扫码关注公众号，获取更多新鲜论文解读

相关文章

IEEE Access | 一种抽取式文档摘要的层级式自注意力模
该论文采用层级式自注意力模型实现抽取式文档摘要，相比以前模型，训练中融入了先前句子向量的动态参数，并在CNN/Da...
Note - 中文分句
起因：直接清洗后的新闻文档（str）用jieba分词觉得不妥，不便于做抽取式摘要（抽取关键句子）做中文分句还...
抽取式摘要生成
方法摘要生成算法主要分为抽取型（Extraction-based）和概括型（生成）（Abstraction-ba...
文本抽取式摘要
关键词：抽取式，BM25算法，行业知识后处理。背景笔者所在的公司原来已经有一个自动摘要的模块，我只是在原来的基...
Embedding+抽取式摘要
1）对于某个文档进行分句 2）对于每个分句使用Word2Vec等工具进行向量化（Word Embedding）， ...
CAN：点击率预估中特征交互作用02
摘要摘要核心网络结构的非线性抽取特征是一种隐式特征表征当前的ctr模型无法完全捕获特征的相互组合作者提出一...
年发文或在超20000篇路上，1个月接受，这本SCI在3~4分之
今天，我们来看看这本SCI期刊：IEEE Access。从现有的记录来看，IEEE Access的2020年影响因...
Match-LSTM & BiDAF
简介抽取式QA是要在文档中定位问题的答案。模型输入是【Passage，Question】，模型输出是【start...
Attention Gate ResU-Net for Auto
论文：IEEE Access 2020[https://ieeexplore.ieee.org/stamp/sta...
1609.0
IEEE Guide for Wireless Access in Vehicular Environments ...

网友评论

程序员

本文标题：IEEE Access | 一种抽取式文档摘要的层级式自注意力模

本文链接：https://www.haomeiwen.com/subject/bidnvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

程序员

关于我们|服务条款|联系我们|IEEE Access | 一种抽取式文档摘要的层级式自注意力模|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！