美文网首页
Hierarchical Attention Networks

Hierarchical Attention Networks

作者: 小绿叶mj | 来源:发表于2018-02-28 13:42 被阅读0次
HAN

hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然

  1. word embedding
  2. bi-gru 作为word encoder
  3. word attention
  4. bi-gru 作为sentence encoder
  5. sentence attention
  6. softmax + logloss

细节:
预处理中过滤掉词频小于5的词用UNK取代,embedding层采用预训练的word2vec权重。
embedding_size设置为200,rnn_size为50(由于是双向故实际为100),rnn到的attention激活函数为tanh。

评估结果:


Evaluation

总结:
rnn结构更多地阐述一种远近邻连接关系,但没有告诉我们对某一个task来说连接中那些部分比较重要,而attention机制很好地解决了这个问题。对于长文本来说,不止一句话内有重要的词,一段之内也有重要的句子,这就是hierarchial attention设计的基本思想。

相关文章

网友评论

      本文标题:Hierarchical Attention Networks

      本文链接:https://www.haomeiwen.com/subject/hambxftx.html