美文网首页
2021-02-05

2021-02-05

作者: 静一下1 | 来源:发表于2021-02-04 23:51 被阅读0次

1.整体结构

2.特征提取:

Fbank:

特征处理:标准化

3.位置编码

初始的inputs:

4.Attention

缩放因子的作用在论文中提到是为了缓解当过大时带来的softmax梯度过小问题:

举个例子    假定输入为   x=【a,a,2a】

然后我们来看softmax的梯度。不妨简记softmax函数为 g(.) ,softmax得到的分布向量 \hat{y} = g(x) 对输入x  的梯度为:

X=q_i,Y=k_i, 有D(X)=D(Y)=1,E(X)=E(Y)=0 

则:

E(XY)=E(X)E(Y)=0 \times 0=0

D(XY)=E(X^2 \cdot Y^2)-[E(XY)]^2 \\   =E(X^2)E(Y^2)-[E(X)E(Y)]^2\\=E(X^2 - [E(X)]^2)E(Y^2-[E(Y)]^2)-[E(X)E(Y)]^2\\=D(X)D(Y)-[E(X)E(Y)]^2  \\=1\times 1 -(0\times0)^2\\=1

对相互独立的分量Z_i,有

E(\sum_i Z_i)=\sum_i E(Z_i)

D(\sum_i Z_i)=\sum_i D(Z_i)

所以:E(q\cdot k)=0,D(q\cdot k)=d_k(下面做了一个验证),方差越大也就说明,点积的数量级越大。

除以可以让方差稳定在1,因为D(q\cdot k/\sqrt{d_k})=d_k/(\sqrt{d_k})^2=1,将方差控制为1,也就有效地控制了前面提到的梯度消失的问题

相关文章

网友评论

      本文标题:2021-02-05

      本文链接:https://www.haomeiwen.com/subject/poxitltx.html