1.Hierarchical Attention Networks for Document Classification。
参考:https://zhuanlan.zhihu.com/p/53682800
注意力可以看作是一个查询方法,给定一个查询q,同key匹配得到注意力分布,然后同value的值进行加权得到最终提取到的信息。
在情感分类上,本文主要思想是设置了全局向量,
在求句子中每个单词的注意力分布时,这个全局向量可以视为:查询那个是有用的词?
在求一篇文章中每个单词的注意力分布时,这个全局向量可以视为:查询哪个是有用的句子。
网络结构:
![](https://img.haomeiwen.com/i8581547/1e233b5f12c77c21.png)
![](https://img.haomeiwen.com/i8581547/96fdb493292c6a6f.png)
句子的注意力层同理。
![](https://img.haomeiwen.com/i8581547/1fbf953149bd1447.png)
- A Lexicon-Based Supervised Attention Model for Neural Sentiment Analysis
主要方法和上面比较相似。
个人认为主要是利用情感词典信息预定了正确的注意力是什么样的,所以说是有监督的注意力模型。
预定假设,注意力要体现情感极性强度,因此引入情感词典,不是情感词的词初始情感分数为0。
![](https://img.haomeiwen.com/i8581547/4b83f9e1db28ebd8.png)
因此主要改变的地方是loss函数。
![](https://img.haomeiwen.com/i8581547/041ecc85176ff1b8.png)
3.Bi-Directional Attention Flow for Machine Comprehension
一个阅读理解模型,适用于两个句子的情况。
比如问答、蕴含判断等。
因为有两个句子,所以在设计attention时充分考虑两个句子的融合交互。
两个矩阵:Context2query Query2Context
网友评论