梯度消失(Gradient Vanishing)就是梯度指数方式变小;梯度爆炸(Gradient Exploding)就是梯度指数方式变大,这都会加大训练难度。
从直观上理解,若权重W只比1略大一点,经过L层网络,激活函数将指数型变大;其相关导数或梯度也会指数型变大;若权重W只比1略小一点,经过L层网络,激活函数将指数型变小;其相关导数或梯度也会指数型变小;
由于
为防止z过大,或过小,一个合理的方法就是每个权重除以一个调整参数,如下
W[l]是指第l层的权重,n[l-1]是指输入给l层的神经元数量,即[l-1]层神经元的数量
网友评论