论文原文:Incorporating Copying Mechanism in Sequence-to-Sequence Learning
背景和动机:
1. 一些词语片段会在一些语言任务(对话、文本摘要)中重复出现
2. 人类对话中会有重复说词语片段的现象,即使自己不理解其语义。人类的本质是复读机
![](https://img.haomeiwen.com/i13670830/c1a0cbd64caaec86.png)
Copy Mechanism (复制机制):
定义:定位到输入序列中的某个片段,然后将该片段拷贝到输出序列中。
作用: 现象中提到的复制需要绝对的精确性,而如果全部输出都是靠模型生成的话,精确度不够。而直接复制的话保证了信息的完整性。
模型:
![](https://img.haomeiwen.com/i13670830/b6efc80ea0693e24.png)
提出名为 copynet 的模型,主体为seq2seq模型中的encoder-decoder结构。
Encoder:
双向rnn结构,输出隐藏层合成的矩阵到Decoder中。
Decoder:
![](https://img.haomeiwen.com/i13670830/2d7651997578bda3.png)
有3点特别之处:
1. 处理原句子的隐层状态时有两种做法: attentive read 和 selective read 。对应不同的机制,分别试图获取输入序列的语义信息和位置信息。
2. 隐状态更新:在状态更新中加入selective reading的结果
3. 预测输出: 输出有是个generate-mode和copy-mode的混合模型, generate-mode是从预设词表中选词,copy-mode就是从输入序列中选词
个人看法:
1. 在文本摘要任务能perform well ,不适合用于机器翻译 , 在对话系统中表现一般
2. 可以看作是attention的一种扩展。在有attention的网络中都可以尝试加入这个copy mechanism
3. 复读现象在实际运用中没有论文中提到的那么频繁,但用于捕捉人名,题目等实体词有奇效。
网友评论