正则化主要采用奥卡姆剃刀原理,类似于加入先验知识的概率模型
L0和L1正则都可以是的参数矩阵稀疏化(强制参数据矩阵大部分元素为0),但是相比于L0,L1正则是L0正则的最优凸近似,而且优化较为方便
Why-----------稀疏化矩阵参数使得模型具有:
1、 特征选择的功能 去除冗余的信息。一般而言,输出只是和少部分输入有关系
2、具有可解释性,可视化某些重要的特征,尤其在机器学习过程中,分析决策因子
L2正则:(向量元素平方和后求平方根,参数矩阵整体偏向于0,但不是L1的等于0) 又称 岭回归 或者 权重衰减weight decay
1、有效防止过拟合,提高模型的鲁棒性
2、解决优化问题。有效解决了训练过程中参数出现的condition number较大时不好求逆的情况,使得矩阵求逆时相当于引入了
单位矩阵,解决了求逆时参数矩阵出现病态(ill condition)情况,使得condition number接近于1。同时使得函数曲线强制凸优化(入强凸),加快收敛并使得收敛更加稳定
核方法:
有点类似于PCA,SVD的感觉
注:优化问题
1、 局部极小值
2、 ill condition问题。condition number是衡量当输入x变化时输出的变化量的指标,越接近于1,越稳定,模型鲁棒性越好。
加:
L2与L1的区别在于,L1正则是拉普拉斯先验,而L2正则则是高斯先验。它们都是服从均值为0,协方差为1λ。当λ=0时,即没有先验)
网友评论