L0，L1，L2和核方法正则化

作者: 蒜苗爱妞妞 | 来源:发表于2017-11-06 21:21 被阅读0次

正则化主要采用奥卡姆剃刀原理，类似于加入先验知识的概率模型

L0和L1正则都可以是的参数矩阵稀疏化（强制参数据矩阵大部分元素为0），但是相比于L0，L1正则是L0正则的最优凸近似，而且优化较为方便

Why-----------稀疏化矩阵参数使得模型具有：

1、特征选择的功能去除冗余的信息。一般而言，输出只是和少部分输入有关系

2、具有可解释性，可视化某些重要的特征，尤其在机器学习过程中，分析决策因子

L2正则：（向量元素平方和后求平方根，参数矩阵整体偏向于0，但不是L1的等于0）又称岭回归或者权重衰减weight decay

1、有效防止过拟合，提高模型的鲁棒性

2、解决优化问题。有效解决了训练过程中参数出现的condition number较大时不好求逆的情况，使得矩阵求逆时相当于引入了

单位矩阵，解决了求逆时参数矩阵出现病态（ill condition）情况，使得condition number接近于1。同时使得函数曲线强制凸优化（入强凸），加快收敛并使得收敛更加稳定

核方法：

有点类似于PCA，SVD的感觉

注：优化问题

1、局部极小值

2、 ill condition问题。condition number是衡量当输入x变化时输出的变化量的指标，越接近于1，越稳定，模型鲁棒性越好。

加：

L2与L1的区别在于，L1正则是拉普拉斯先验，而L2正则则是高斯先验。它们都是服从均值为0，协方差为1λ。当λ=0时，即没有先验）

网友评论

本文标题：L0，L1，L2和核方法正则化

本文链接：https://www.haomeiwen.com/subject/zilrmxtx.html

L0，L1，L2和核方法正则化