机器学习基础理论-1 正则化

作者: Python_Franklin | 来源:发表于2018-06-24 17:15 被阅读0次

为解决过拟合问题，加入正则化项或者规则项，对模型的复杂程度进行惩罚，让模型更加简单。

正则化

规则化函数Ω(w)通常可以选择L1、L2范数。

λ 在这里我们称做正则化参数。它是用来平衡拟合训练的目标和保持参数值较小的目标。一方面我们想要训练的模型能更好地拟合训练数据，希望模型能够很好的适应训练集；另一方面是我们想要保持参数值较小，模型较为简单。

规则项/正则化项

L0范数：非零元素的个数。在实际应用中，由于L0范数本身不容易有一个好的数学表示形式，给出上面问题的形式化表示是一个很难的问题，所以在实际情况中，L0的最优问题会被放宽到L1或L2下的最优化。

L1范数：非零元素的绝对值之和，对应的是常说的曼哈顿距离、最小绝对误差等。线性回归的L1范数正则化对应的是Lasso回归。L1范数可以使得一些系数变小，甚至还是一些绝对值较小的系数直接变为0，因此特别适用于参数数目缩减与参数的选择。

L2范数：向量元素的平方和再开平方，对应的是常说的欧氏距离。线性回归的L2范数正则化对应的是Ridge回归（岭回归。）Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归比，这会使得模型的特征留的特别多，模型解释性差。

总结：

L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。L1、L2都可以防止过拟合，只不过手段不同：L1是舍弃掉一些不重要的特征，L2是控制所有特征的权重。

之所以要实现稀疏，是因为一方面要去掉那些没有较大影响的特征，起到特征选择的作用；另一方面也是为了让模型更加容易解释。

另，正则化还可以解决特征数量大于样本数量的问题。

如果你只有较少的样本，导致特征数量大于样本数量，那么矩阵 XTX 将是不可逆矩阵或奇异（singluar）矩阵，或者用另一种说法是这个矩阵是退化（degenerate）的，那么我们就没有办法使用正规方程来求出 θ 。

幸运的是，正规化也为我们解决了这个问题，具体的说只要正则参数是严格大于零，实际上，可以证明如下矩阵：

将是可逆的。因此，使用正则还可以照顾任何 XTX 不可逆的问题。

参考文献：

网友评论

本文标题：机器学习基础理论-1 正则化

本文链接：https://www.haomeiwen.com/subject/ktwosftx.html

机器学习基础理论-1 正则化