存在意义
监督学习的2个主题就是
- 最小化误差:模型拟合数据
- 规则化参数:防止过拟合
为了使模型简单,所以需要规则化
在保持模型单的情况下,使误差最小,可以得到泛化能力强的模型
规则化符合奥卡姆剃刀(Occam's razor)原理。即在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。
规则化是结构风险最小化策略的体现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。
L0与L1
L0范数是指向量中非0的元素的个数。是使权值W稀疏化。
L1范数是指向量中各个元素绝对值之和
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
稀疏有什么卵用?
- 特征选择:实现特征的自动选择。去除和最终的输出yi没有关系或者不提供任何信息的特征
- 可解释性:留下的非0参数少,更易理解
L2范式
L2范式:向量各元素的平方和然后求平方根。
L2范式可以改善过拟合问题
L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0
L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速。下图左边是优化过后的效果,这样可以更快逼近最优值,而右边因为切点处很平缓,因此逼近最优解的速度缓慢。
左边是加了L2的效果,更易逼近最优解L1使得大部分特征置0,但是L2并不会将特征都置0,只是尽量将参数“惩罚”为接近0的一个小值,这个惩罚力度由因子λ控制,λ越大,最终训练得到的w就越小(越接近0)。
网友评论