前向传播,反向更新,损失函数。
https://blog.csdn.net/kedacpu/article/details/104629242W不可变化太大, 容易过拟合,在最优点附近震荡
学习率r如果是固定的值,在最优点附近容易造成震荡。
学习率r随着训练的进行,不断调整。刚开始r大,成本函数较大。到了一定程度,慢慢减小r的值。
当个样本的损失函数L
用同样的方式,计算出dw2,dw3,db。就可以得到方向更新的值
实际应用中,往往是随机初始化
得到方向更新以后的值,再次前向传递的时候,就用心的参数。
网友评论