为避免隐层神经元的作用完全一样,我们可以随机初始化参数,例如:把𝑊[1] 设为np.random.randn(2,2)(生成高斯分布),通常再乘上一个小的数,比如 0.01,这样把它初始化为很小的随机数。之所以乘以0.01,是为了避免wx+b落在tanh/sigmoid函数两端的平坦位置,导致梯度下降很慢。
为避免隐层神经元的作用完全一样,我们可以随机初始化参数,例如:把𝑊[1] 设为np.random.randn(2,2)(生成高斯分布),通常再乘上一个小的数,比如 0.01,这样把它初始化为很小的随机数。之所以乘以0.01,是为了避免wx+b落在tanh/sigmoid函数两端的平坦位置,导致梯度下降很慢。
本文标题:参数初始化
本文链接:https://www.haomeiwen.com/subject/jprnpqtx.html
网友评论