这是一篇2017年的ICML 顶会
![](https://img.haomeiwen.com/i3117304/38d7a770cda38d4f.png)
从这个图中可以看到,旁边的注意力机制,这里边的注意力机制相当于连续两个没有bias的全连接。
这个注意力机制,文章还写了一个A 的归一化,但是没什么用。最后的权重 计算r 个权重的和作为第n个数据的权重。
感觉这个方法没有太多的可解释性。
这是一篇2017年的ICML 顶会
从这个图中可以看到,旁边的注意力机制,这里边的注意力机制相当于连续两个没有bias的全连接。
这个注意力机制,文章还写了一个A 的归一化,但是没什么用。最后的权重 计算r 个权重的和作为第n个数据的权重。
感觉这个方法没有太多的可解释性。
本文标题:Structured self-attention senten
本文链接:https://www.haomeiwen.com/subject/jftpaktx.html
网友评论