hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然
- word embedding
- bi-gru 作为word encoder
- word attention
- bi-gru 作为sentence encoder
- sentence attention
- softmax + logloss
细节:
预处理中过滤掉词频小于5的词用UNK取代,embedding层采用预训练的word2vec权重。
embedding_size设置为200,rnn_size为50(由于是双向故实际为100),rnn到的attention激活函数为tanh。
评估结果:
Evaluation
总结:
rnn结构更多地阐述一种远近邻连接关系,但没有告诉我们对某一个task来说连接中那些部分比较重要,而attention机制很好地解决了这个问题。对于长文本来说,不止一句话内有重要的词,一段之内也有重要的句子,这就是hierarchial attention设计的基本思想。
网友评论