1.整体结构

2.特征提取:
Fbank:

特征处理:标准化



3.位置编码





初始的inputs:


4.Attention


缩放因子的作用在论文中提到是为了缓解当过大时带来的softmax梯度过小问题:
举个例子 假定输入为 x=【a,a,2a】

然后我们来看softmax的梯度。不妨简记softmax函数为 ,softmax得到的分布向量
对输入
的梯度为:


记, 有
则:
对相互独立的分量,有
所以:(下面做了一个验证),方差越大也就说明,点积的数量级越大。

除以可以让方差稳定在1,因为
,将方差控制为1,也就有效地控制了前面提到的梯度消失的问题。
网友评论