Dropout

作者: 徐振杰 | 来源:发表于2018-11-21 17:47 被阅读0次
Dropout和ensemble有什么区别?

因为神经网络的训练模型费时,测试模型也费时,所以做ensemble不太可能,而如果有n个节点,则dropout就会产生2^n个选择,这时候就相当于做了ensemble

Dropout和L2有什么区别?

Dropout 有稀疏性,而L1只是单纯的缩减参数,L2有抗扰动能力,因为当没有L2的时候\theta如下所示:
J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2
\theta_j := \theta_j - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}

当加了L2之后
\theta_j := \theta_j(1-\alpha \frac{\lambda}{m}) - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}
加了这一项之后使得\theta 要先乘一个小于1的因子,使得参数不断减小

为什么我们希望参数小一点呢?

主要是因为如果参数过大,那么我们的数据只要发生一点点的偏移,我们的模型就会发生巨大的误差,这也就是所说的过拟合

https://blog.csdn.net/stdcoutzyx/article/details/49022443
https://blog.csdn.net/jinping_shi/article/details/52433975

相关文章

网友评论

      本文标题:Dropout

      本文链接:https://www.haomeiwen.com/subject/luycqqtx.html