7 深度学习中的正则化

7 深度学习中的正则化

作者: golfgang | 来源:发表于2018-09-13 23:55 被阅读0次

1 参数泛数惩罚

1.1. $L^2$ 参数正则化
通常被称为权重衰减的 $L^2$ 参数泛数惩罚。这个正则化策略通过向目标函数添加一个正则项 $Ω(θ)=\frac{1}{2}||w||_2^2$ ，使权重更接近原点。
只有在显著减小目标函数方向上的参数会保留的相对完好。对于无助于目标函数见效的方向（对应Hessian矩阵较小的特征值）上改变参数不会显著增加梯度，这种不重要方向上对应的分量会在训练过程中因正则化而衰减掉。
$L^2$ 正则化能让学习算法感知到具有较高方差的输入x，因此与输出目标的协方差较小(也就是相关性不大)的特征的权重将会收缩。
1.2. $L^1$ 参数正则化
$L^1$ 为各个参数的绝对值之和，其定义如下： $Ω(θ)=||w||_1=\sum_i|w_i|$
相比 $L^2$ 正则化， $L^1$ 正则化会产生更稀疏的解。此处稀疏性是指的是最优值中的一些参数为0。由 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择机制。

2 作为约束的范数惩罚

在4.4节中，构造广义的拉格朗日函数来最小化带约束的函数，即在原始的目标函数上添加一系列的惩罚项，如果我们想约束 $Ω(θ)$ 小于k，则拉格朗日函数可以写成：

lagrange with kkt

要优化(调整)的参数：θ和α，θ也就是 $w$ ，α是权重衰减系数，α在 $Ω(θ)$ >k时必须增加，在 $Ω(θ)$ <k时必须减小。所有正值的α都鼓励 $Ω(θ)$ 收缩。最优值 $a^*$ 也鼓励 $Ω(θ)$ 收缩，但不会强到使得 $Ω(θ)$ 小于k。

如果 $Ω$ 是一个 $L^2$ 范数，则权重被限制在一个 $L^2$ 球里面；如果 $Ω$ 是一个 $L^1$ 范数，则权重被限制在一个 $L^1$ 范数限制的区域中。

显式约束和投影：
对于每一个不同的α，都寻找与此对应的k，文中的方法时：先计算 $J(θ)$ 的下降步，然后将θ投影到满足 $Ω(θ)<k$ 的最近点。
好处：1.惩罚可能会导致目标函数非凸，从而陷入局部极小值。2.重投影的显示约束使优化过程增加了一定的稳定性。

Frobenius范数：

相关文章

网友评论

本文标题：7 深度学习中的正则化

本文链接：https://www.haomeiwen.com/subject/enwggftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|7 深度学习中的正则化|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！