![](https://img.haomeiwen.com/i8207483/9dcc52ee00c0a67b.jpg)
今天是大年初一,先给大家在此拜个年,祝大家新年里身体健康,万事如意!
我们今天谈谈什么是回归问题,这里回归问题和分类问题区别。回归问题与分类问题本质上都是要建立映射关系。但是回归问题是连续的,而分类问题是离散的。连续即回归,离散即分类。
岭回归(Ridge Regression)
我们为什么需要岭回归呢?有时候我们权重取值很大,导致模型很不稳定,这个应该不难理解当权重很大时,特征稍微有点变动,反应在函数值就会很大。正则化或者也可以叫缩减,问什么叫缩减随后演示中大家就会有所体会。
损失函数里增加了权重的平方和,参数 决定了缩减的幅度,
值越大缩减幅度越大,权重的值趋近于 0。
在开始之前我们先简单回顾一下上一次内容,我们在岭回归中是在原有损失函数添加正则项来控制参数 大小,目的就是在减少
与 Y 距离同时,控制参数
不能过大。这正则项使用的是
的 L2 范数,如果使用 L1 范数就是 LASSO ,这里 LASSO 出现在 1996 年要远远晚于 1970 年的领回顾。
那么我们为什么要添加正则项,其实其作用本质就是防止过拟合,随后例子中我们会发现因为 LASSO 正则项的存在,一些高阶参数会几乎为 0,这样 LASSO 也起到了特征选择和降维的作用。
我们看一看对于添加正则项(L2范数)的损失函数进行求导后得到上面式子。然后我们对这个公式进行整理
-
这一部分和之前对于
求导没有任何变化
- 而我们重点是看新增
对于求导有什么影响,其中
和
都是较小数,而 N 样本个数又是一个较大数这样一来
就是一个小于 1 而接近 1 的小数,说明每次迭代都会减少
值,所以叫做缩减。
然后我们看用矩阵形式直接求 的公式在添加了正则项的公式是
这里我们需要注意一下因为 是一个 n+1 维的方阵,所以这里 I 也是一个 n+1 而且要是对角线上第一个元素为 0 而不是 1 的 n+1 矩阵。
这样还有好处就是通过 I 后一些非满秩矩阵和奇异矩阵变得可以逆了,所以我们通常最小二乘法都是带有岭回归的最小二乘法。
LASSO(Least Absolute Shrinking and Selection Operator)
字面上意思通过绝对值方式减少参数值并且进行特征选择的操作。这里要说一说稀疏矩阵,有时候我们需要假设一些特征的权重为 0 方便我们通过结果来观察这个特征是否有用。
我们这里举一个房价预测问题,在房价预估问题中,面积和几室几厅是有线性关系的所以几室几厅特征是冗余的。对于高维 有时候我们自己进行选择特征是一件比较难的事。其实每一个
可以看做特征的权重。因为我们线性模型写出
我们希望减少 个数,我们可以有这样数学模型描述这个问题
小数组合特征组合,特征少数特征组合。但是甚至不是一个连续的函数,而且不是凸函数, 是计数来计算特征数作为损失函数一部分控制
的个数是一件难的事,我们可以用
来近视
![](https://img.haomeiwen.com/i8207483/df177db7c00743bd.png)
Ridge L2 范数
在 和
参数构成空间中,在图上的一圈一圈的蓝色线表示不同
和
的损失函数(无约束) y 值相等的等高线。浅黄色区域表示约束的形态为 黄色线表示圆表示
也就是正则项 L2 范数。我们要在函数上找到离
函数最近的点。也就是如图上
等高线和圆相切的点。
LASSO L1 范数
在 L1 范数作为限制条情况下,L1 范数表示菱形,同样我们要找到一个点与等高线相切。在菱形的顶点与等高线相切概率比其他点要大。可以发现菱形顶点处会有一个维度为 0。
坐标下降法(Coordinate Descent)是一个简单但却高效的非梯度优化算法。与梯度优化算法沿着梯度最速下降的方向寻找函数最小值不同,坐标下降法依次沿着坐标轴的方向最小化目标函数值。
![](https://img.haomeiwen.com/i8207483/dc034ff965cc7377.png)
我们现在一个维度轴上,找到一个固定点。这个固定点用黄色线表示,然后在黄色线上找到
的极值点。
![](https://img.haomeiwen.com/i8207483/8a61793abba4d623.png)
我们现在 x1 轴上先选择一点,然后 x1 点作为基础移动找到 x2 最优点,如下图蓝色线来表示在 x2 轴上基于 x1 固定点的最优解。
![](https://img.haomeiwen.com/i8207483/72e3721265a4a070.png)
当 x2 轴上找到最优点后,在依据找到最优的 x2 点作为基础来在此线上找到 x1 最优点这一次找到第二点 x 轴第二条线。
![](https://img.haomeiwen.com/i8207483/5877bba656b0b586.png)
这一次依据新找到的x1上最优解作为 x1 的值来在这条直线上移动 x2 值来得到第二条蓝线表示最优解。
![](https://img.haomeiwen.com/i8207483/0ebd8b2921c87707.png)
最后希望大家关注我们微信公众号
![](https://img.haomeiwen.com/i8207483/48690a506ec756d2.jpeg)
网友评论