方差
![](https://img.haomeiwen.com/i15849264/687c70978f952fa0.png)
![](https://img.haomeiwen.com/i15849264/c6d91a560b9eeb3d.png)
这里有一个trade off。因为bias和variance也在相互影响。
正则化:有助于减少过拟合。
L1正则化使模型变得稀疏。(w中有很多0)
正则化参数lamda通过验证集来确定。
![](https://img.haomeiwen.com/i15849264/ab5f580eed0f749e.png)
L2正则化也被称为“权重衰减”
![](https://img.haomeiwen.com/i15849264/2052c4c37827b71b.png)
正则化参数变大--->w变小(因为cost founction 变大了)。当z变小时,激活函数在0附近接近线性(以tanh为例)。故每一层神经网络接近线性。从而防止发生过拟合。
![](https://img.haomeiwen.com/i15849264/dc799f13a45e68e4.png)
dropout:通过概率随机删除一些节点
![](https://img.haomeiwen.com/i15849264/c4782e06688913e8.png)
inverted dropout:在保证减少节点的同时,保持a的期望不变
![](https://img.haomeiwen.com/i15849264/56c8716817cd82ad.png)
归一化:将x1和x2的方差都变为1.期望变为0:(可以更快速的训练模型)
![](https://img.haomeiwen.com/i15849264/c4507988f962d797.png)
梯度消失与爆炸:网络中,激活函数以指数增加或减少
网友评论