美文网首页
Hierarchical Attention Networks

Hierarchical Attention Networks

作者: 小绿叶mj | 来源:发表于2018-02-28 13:42 被阅读0次
    HAN

    hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然

    1. word embedding
    2. bi-gru 作为word encoder
    3. word attention
    4. bi-gru 作为sentence encoder
    5. sentence attention
    6. softmax + logloss

    细节:
    预处理中过滤掉词频小于5的词用UNK取代,embedding层采用预训练的word2vec权重。
    embedding_size设置为200,rnn_size为50(由于是双向故实际为100),rnn到的attention激活函数为tanh。

    评估结果:


    Evaluation

    总结:
    rnn结构更多地阐述一种远近邻连接关系,但没有告诉我们对某一个task来说连接中那些部分比较重要,而attention机制很好地解决了这个问题。对于长文本来说,不止一句话内有重要的词,一段之内也有重要的句子,这就是hierarchial attention设计的基本思想。

    相关文章

      网友评论

          本文标题:Hierarchical Attention Networks

          本文链接:https://www.haomeiwen.com/subject/hambxftx.html