2017 · ICLR · A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING ·
想法来源:监督任务+self-attention的方法,
价值:把Self-att扩展了一下,变成了矩阵
方法:Self attention产生的结果是一个向量,但是作者认为不能捕捉多层的意思,所以做成了一个矩阵。并在相同的attention上,做了惩罚项。
缺点:so simple
详细方案:
- 先过BiLSTM,产生
- 的形状从调整成了得到了A
- 重新表示,并在loss中加惩罚项。,其中,表示的矩阵的Frobenius范数,I是单位矩阵。
Frobenius范数:设A是mxn的矩阵,其F范数定义为
数据集:
- the Age dataset:一个推特的推文数据集,推文中有对用户年龄的描述,作者将其分为了5个年龄段,该数据上进行的任务是根据推文判断用户年龄段。分类问题。
- Yelp dataset:一个用于情感分类任务的数据集,包含2.7M个评论,分类任务是根据输入的评论推测出评论对应的星数(从1星到5星)。
- Stanford Natural Language Inference(SNLI) Corpus:一个用于关系推理的数据集,其实也是一个分类任务,根据输入的句子对,推测出对应的关系。
实验:
imageimage
image
网友评论