第三章线性模型

作者: 乘瓠散人 | 来源:发表于2022-01-15 23:33 被阅读0次

基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即 f(x) = wx + b。由于w直观表达了各属性在预测中的重要性，因此线性模型具有很好的可解释性。

线性回归

均方误差是回归任务中最常用的性能度量。均方误差有非常好的几何意义，它对应了常用的欧氏距离。基于均方误差最小化来进行模型求解的方法称为最小二乘法。

逻辑回归

如果要做二分类任务，线性回归模型产生的预测值是z=wx+b 是实值，因此，我们需要将实值转化成离散值0/1，最理想的是单位阶跃函数，z>0判为正例，z<0判为负例，z=0可任意判别。但是单位阶跃函数不连续，因此我们考虑找到一种单调可微的替代函数——对数几率函数(logistic function)：

$y = \frac{1}{1+e^{-z}}$

该函数是一种Sigmoid函数，它将z值转化为一个接近0或1的y值，并且其输出值在z=0附近变化很陡。将y视为样本作为正例的类后验概率估计p(y=1|x)，之后可通过极大似然法来估计参数w和b。

逻辑回归虽然名字叫回归，实际是一种分类任务学习方法。

线性判别分析

线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的线性学习方法，在二分类问题上最早由Fisher提出。

LDA的思想：给定训练样本集，设法将样本投影到一条直线上，使得同类样本的投影点尽可能接近，异类样本的投影点尽可能远离；在对新样本进行分类时，也将其投影到该直线上，再根据投影点的位置来确定新样本的类别。

LDA也可以推广到多分类任务中。多分类LDA将样本投影到d'维空间，d'通常远小于原有的属性数d。于是，可以通过这个投影来减小样本点的维数，且投影过程中使用了类别信息，因此LDA也常被视为一种经典的监督降维技术。

多分类学习

我们可以基于一些基本策略，将多分类任务拆解为若干个二分类任务求解。

一对一(OvO)：将N个类别两两配对，从而产生N(N-1)/2个二分类任务。在测试阶段，新样本会得到N(N-1)/2个分类结果，最终结果可通过投票产生。
一对其余(OvR)：每次将一个类的样例作为正例，所有其他类的样例作为反例来训练N个分类器。在测试时，若只有一个分类器预测为正类，则该类为分类结果；若有多个分类器预测为正类，则选择置信度最大的类别作为分类结果。
多对多(MvM)：每次将若干个类作为正例，若干个其他类作为反例。MvM的正、反类构造必须有特殊的设计，不能随意选取。一种最常用的MvM技术是纠错输出码。

类别不平衡

类别不平衡是指分类任务中不同类别的训练样本数目差别很大的情况。

欠采样：去除一些反例使得正、反例数目接近。
若随机丢弃样本，可能会丢失一些信息，代表性算法EasyEnsemble利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但全局来看不会丢失重要信息。
过采样：增加一些正例使得正、反例数目接近。
若简单地对初始正例进行重复采样，容易导致严重的过拟合，代表性算法SMOTE通过对训练集里的正例进行插值来产生额外的正例。
阈值移动：直接基于原始数据集进行学习，但是预测时，改变预测为正例的阈值，不再为0.5。

《西瓜书》
《南瓜书》

网友评论

本文标题：第三章线性模型

本文链接：https://www.haomeiwen.com/subject/seathrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！