哲哲的ML笔记（十四：正则化）

作者: 沿哲 | 来源:发表于2021-03-27 13:33 被阅读0次

哲哲的ML笔记（十四：正则化）
哲哲的ML笔记（三十四：在线学习）
哲哲的ML笔记（二：模型）
哲哲的ML笔记（四：矩阵）
哲哲的ML笔记（三：梯度下降）
哲哲的ML笔记（七：学习率）
哲哲的ML笔记（九：正规方程）
哲哲的ML笔记（十八：反向传播）
哲哲的ML笔记（十一：决策边界）
哲哲的ML笔记（二十四：支持向量机SVM）

过拟合的表现

如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但是可能会不能推广到新的数据

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集；第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；而中间的模型似乎最合适

分类问题中也存在这样的问题

过拟合定义：如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但是可能会不能推广到新的数据

处理过拟合的方法有两个：

丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA，主成分分析）
正则化。保留所有的特征，但是减少参数的大小（magnitude）

正则化

正则化的基本方法:第一张图中如果我们的模型是： $h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$ 正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。所以我们要做的就是在一定程度上减小这些参数的值。
具体方法是修改代价函数，在其中 $\theta_3$ 和 $\theta_4$ 设置一点惩罚。这样做的话，我们在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小一些的 $\theta_3$ 和 $\theta_4$
$\mathop{\arg\min}\limits_{\theta}[\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})^2+1000\theta_3+1000\theta_4]$
根据惯例，我们不对 $\theta_0$ 进行惩罚.正则项： $\lambda \sum_{j=1}^n\theta_j$ ，正则参数： $\lambda$ 。

$\mathop{\arg\min}\limits_{\theta}[\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})^2+\lambda \sum_{j=1}^n\theta_j]$
经过正则化处理的模型与原模型的可能对比如下图所示：

如果选择的正则化参数 $\lambda$ 过大，则会把所有的参数都最小化了，假设函数会趋近于一条直线

线性回归中的正则化

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程
正则化线性回归的代价函数为：
$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{i})-y^{i})+\lambda \sum_{j=1}^n\theta^2_j]$
如果我们要使用梯度下降法令这个代价函数最小化，因为我们未对进行正则化，所以梯度下降算法将分两种情形：

$\theta_j=\theta_j(1-\frac{\lambda}{m})-\frac{\alpha}{m}\sum_{i=1}^m(h_\theta(x^{i})-y^{i})x^{i}_j$ ,可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令 $\theta$ 值缩放后减少了一个额外的值。
同样也可以利用正规方程来求解正则化线性回归模型

图中的矩阵尺寸为

(n+1)*(n+1)

逻辑回归中的正则化

逻辑回归中的代价函数是

J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{i}log(h_\theta(x^{i}))+(1-y^{i})log(1-h_\theta(x^{i})) ]

也给代价函数增加一个正则化的表达式

J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{i}log(h_\theta(x^{i}))+(1-y^{i})log(1-h_\theta(x^{i})) ]+\frac{\lambda}{2m}\sum_{j=1}^n\theta^{2}_j

再不断进行梯度下降，这一步看起来和线性回归中的梯度下降没什么区别，但是

h_\theta(x)=g(\theta^TX)

哲哲的ML笔记（十四：正则化）
过拟合的表现如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但...
哲哲的ML笔记（三十四：在线学习）
在线学习不会使用一个固定的数据集，我们会做的是获取一个用户样本，从那个样本中学习，然后丢弃那个样本并继续下去，而且...
哲哲的ML笔记（二：模型）
1. 参数设定：训练实例数：输入变量/特征：预测的目标变量：一个训练样本：第 i 个训练样本：hypothesi...
哲哲的ML笔记（四：矩阵）
此处简略了很多内容，实际课程中讲得很细、很基础矩阵乘法性质 1.不满足交换律：满足结合律：转置、逆没有逆矩...
哲哲的ML笔记（三：梯度下降）
1. 前提回顾已知：代价函数，希望找到对应的参数使得最小思路：令从任意值开始（一般设置为=0）；每次微小改变直到...
哲哲的ML笔记（七：学习率）
代价函数-迭代次数梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和...
哲哲的ML笔记（九：正规方程）
到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程方法是更好的解决方案正规方程是通过求解 ...
哲哲的ML笔记（十八：反向传播）
正向传播在之前介绍的通过神经网络预测结果，我们使用的其实是一种正向传播方法，从第一层开始正向一层一层进行计算，直...
哲哲的ML笔记（十一：决策边界）
决策边界根据函数表达式和图像，可以得到则假设有这样一个模型并且参数是向量[-3 1 1]。则当，即 ...
哲哲的ML笔记（二十四：支持向量机SVM）
从逻辑回归到SVM 与逻辑回归和神经网络相比，支持向量机，或者简称SVM，在学习复杂的非线性方程时提供了一种更为清...