美文网首页
L0,L1,L2和核方法正则化

L0,L1,L2和核方法正则化

作者: 蒜苗爱妞妞 | 来源:发表于2017-11-06 21:21 被阅读0次

    正则化主要采用奥卡姆剃刀原理,类似于加入先验知识的概率模型

    L0和L1正则都可以是的参数矩阵稀疏化(强制参数据矩阵大部分元素为0),但是相比于L0,L1正则是L0正则的最优凸近似,而且优化较为方便

    Why-----------稀疏化矩阵参数使得模型具有:

                                          1、 特征选择的功能  去除冗余的信息。一般而言,输出只是和少部分输入有关系

                                          2、具有可解释性,可视化某些重要的特征,尤其在机器学习过程中,分析决策因子

    L2正则:(向量元素平方和后求平方根,参数矩阵整体偏向于0,但不是L1的等于0)  又称   岭回归   或者   权重衰减weight decay

                                          1、有效防止过拟合,提高模型的鲁棒性

                                          2、解决优化问题。有效解决了训练过程中参数出现的condition number较大时不好求逆的情况,使得矩阵求逆时相当于引入了

                                                 单位矩阵,解决了求逆时参数矩阵出现病态(ill condition)情况,使得condition number接近于1。同时使得函数曲线强制凸优化(入强凸),加快收敛并使得收敛更加稳定

    核方法:

    有点类似于PCA,SVD的感觉

    注:优化问题

                                               1、 局部极小值

                                                2、  ill condition问题。condition number是衡量当输入x变化时输出的变化量的指标,越接近于1,越稳定,模型鲁棒性越好。

    加:

    L2与L1的区别在于,L1正则是拉普拉斯先验,而L2正则则是高斯先验。它们都是服从均值为0,协方差为1λ。当λ=0时,即没有先验)

    相关文章

      网友评论

          本文标题:L0,L1,L2和核方法正则化

          本文链接:https://www.haomeiwen.com/subject/zilrmxtx.html