【机器学习算法系列】正则化解析

作者: 朱小敏的小书屋 | 来源:发表于2020-04-25 22:21 被阅读0次

常用机器学习算法
【机器学习算法系列】正则化解析
深度学习知识点汇总-机器学习基础（1）
机器学习中各个算法的优缺点（二）
sklearn调包侠之逻辑回归
正则化
机器学习中的范数与稀疏性
深度学习笔记
5- 深度学习之神经网络核心原理与算法-正则化
机器学习中 L1 和 L2 正则化的简单介绍

1、正则化原理概述

1.1 正则化简述

当将线性回归和逻辑回归等模型应用到某些特定的机器学习应用时，经常会遇到过拟合 (over-fitting)的问题，可能会导致模型效果很差。而正则化（regularization）则可以减少过拟合问题。

正则化项是结构风险最小化策略的实现，可以理解为是接在损失函数后的额外项，可以看做是损失函数的惩罚项，惩罚项对损失函数的某些参数进行限制。简单来说，正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。使用正则化，降低模型的复杂度。

1.2 正则化类型

1.2.1 L1 正则化

L1 正则化通常称为 Lasso 正则，公式为：

image.png

一般回归分析中回归w表示特征的系数，从上式可以看到正则化项是对系数做了处理（限制）。L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为∣∣w∣∣1。

一般会在正则化项之前添加一个系数，一般用α表示，也用λ表示，这个系数需要自己指定。

L1正则化可以产生参数稀疏解，即让系数等于0，假设L1正则化的损失函数为：

image.png

其中J0是原始的损失函数，加号后面的一项是L1正则化项，α是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法（比如梯度下降）求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时，相当于对J0做了一个约束。

如下图所示：假设模型只有二个参数，为w1和w2，L1正则化项α∣∣w∣∣1为图中正方形部分，参数既要落在正方形部分，又要离损失函数最近，因此图中与y轴相交点为稀疏解，因此L1可用于特征选择，也可以防止过拟合。

image.png

正则化前面的系数α，可以控制L图形的大小。α越小，L的图形越大（下图中的黑色方框）；α越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。

1.2.2 L2 正则化

L2 正则化通常称为岭回归，公式为：

image.png

由公式可见，L2正则化项是在损失函数式中加上α∣∣w∣∣2^2，L1正则化是指权值向量w中各个元素的平方和然后再求平方根。

假设L2正则化的损失函数为：

image.png

同样可以画出他们在二维平面上的图形，如下：

image.png

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

L2正则化可以防止模型过拟合（overfitting），拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。

1.3 正则化参数

1.3.1 L1参数

假设有如下带L1正则化项的代价函数：

image.png

其中x是要估计的参数，相当于上文中提到的w以及θ注意到L1正则化在某些位置是不可导的，当λ足够大时可以使得F(x)在x=0时取到最小值。

1.3.2 L2参数

λ越大，θj衰减得越快，λ越大，L2圆的半径越小，最后求得损失函数最值时各参数也会变得很小。

2、sklearn代码实现

2.1 多项式预测

# 导入所需的包
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import  train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge #在sklearn的linear_model下的Ridge类中已经对L2进行封装

# 创建数据集
np.random.seed(42)
x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)

# y = 0.5x + 3并加入噪声
noise = np.random.normal(0, 1,size=100)
noise = noise.reshape(-1, 1)
y = 0.5 * X + 3 + noise
np.random.seed(666)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

# 封装多项式函数，定义PipeLine
def PolynomialRegression(degree):
    return Pipeline(
        [
            ('poly', PolynomialFeatures(degree=degree)),
            ('std', StandardScaler()),
            ('lin_reg', LinearRegression())
        ]
    )

# 画出回归模型预测值形成的模型曲线
def plot_model(model):
    X_plot = np.linspace(-3, 3, 100).reshape(-1, 1)
    y_plot = model.predict(X_plot)
    plt.scatter(x, y)
    plt.plot(X_plot[:, 0], y_plot, color='r')
    plt.axis([-3, 3, 0, 6])
    plt.show()

# 使用degree=20的多项式回归
poly = PolynomialRegression(degree=20)
poly.fit(X_train, y_train)
y_test_predict = poly.predict(X_test)
mse = mean_squared_error(y_test, y_test_predict)
print('多项式回归MSE:', mse)
plot_model(poly)

运行结果：
多项式回归MSE: 167.9401086729357

image.png

2.2 L2正则化

由上图可见使用degree=20的多项式回归，得到的模型必然是个过拟合的模型。下面使用L2进行模型范化，对比结果。

# 使用L2正则化进行模型范化
def RidgeRegression(degree, alpha):
    return Pipeline(
        [
            ('poly', PolynomialFeatures(degree=degree)),
            ('std', StandardScaler()),
            ('lin_reg', Ridge(alpha=alpha))
        ]
    )

# 传入一个alpha参数,alpha=1
ridge1 = RidgeRegression(degree=20, alpha=1)
ridge1.fit(X_train, y_train)
y_test_predict = ridge1.predict(X_test)
mse = mean_squared_error(y_test_predict, y_test)
print('L2正则化后MSE:', mse)
plot_model(ridge1)

运行结果：
L2正则化后MSE: 1.1888759304218448

image.png

使用L2对模型进行正则化后的预测值的MSE可看出，模型的准确度大幅提升，曲线平滑许多。

2.3 L1正则化

数据源取上面定义的数据集，测试L1正则化的效果。

# 使用L1正则化
from sklearn.linear_model import Lasso 
def LassoRegression(degree, alpha):
    return Pipeline(
        [
            ('poly', PolynomialFeatures(degree=degree)),
            ('std', StandardScaler()),
            ('lin_reg', Lasso(alpha=alpha))
        ]
    )

# 传入一个alpha参数,alpha=1
lasso1 = LassoRegression(20, 1)
lasso1.fit(X_train, y_train)
y_predict = lasso1.predict(X_test)
mse = mean_squared_error(y_predict, y_test)
print('L1正则化后MSE: ', mse)
plot_model(lasso1)

运行结果：
L1正则化后MSE: 1.8408939659515595

image.png

由上图可见，L1正则化系数过大造成模型欠拟合，下面调整正则化系数，使用系数=0.01看看效果。

# 使用L1正则化
from sklearn.linear_model import Lasso 
def LassoRegression(degree, alpha):
    return Pipeline(
        [
            ('poly', PolynomialFeatures(degree=degree)),
            ('std', StandardScaler()),
            ('lin_reg', Lasso(alpha=alpha))
        ]
    )

# 传入一个alpha参数,alpha=0.01
lasso1 = LassoRegression(20, 0.01)
lasso1.fit(X_train, y_train)
y_predict = lasso1.predict(X_test)
mse = mean_squared_error(y_predict, y_test)
print('L1正则化后MSE: ', mse)
plot_model(lasso1)

运行结果：
L1正则化后MSE: 1.1496080843259966

image.png

由上图可见，模型准确率已经得到很大的提升了。因此得出正则化系数与Lasso回归的关系。正则化系数越大，模型泛化能力越强，正则化系数越小，泛化能力越弱。

正则化原理参考文章：https://blog.csdn.net/jinping_shi/article/details/52433975

网友评论

机器学习算法笔记

本文标题：【机器学习算法系列】正则化解析

本文链接：https://www.haomeiwen.com/subject/jzblwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【机器学习算法系列】正则化解析

1、正则化原理概述

1.1 正则化简述

1.2 正则化类型

1.2.1 L1 正则化

1.2.2 L2 正则化

1.3 正则化参数

1.3.1 L1参数

1.3.2 L2参数

2、sklearn代码实现

2.1 多项式预测

2.2 L2正则化

2.3 L1正则化

相关文章

常用机器学习算法

【机器学习算法系列】正则化解析

深度学习知识点汇总-机器学习基础（1）

机器学习中各个算法的优缺点（二）

sklearn调包侠之逻辑回归

正则化

机器学习中的范数与稀疏性

深度学习笔记

5- 深度学习之神经网络核心原理与算法-正则化

机器学习中 L1 和 L2 正则化的简单介绍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习算法笔记