基本形式
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f(x) = wx + b
。由于w
直观表达了各属性在预测中的重要性,因此线性模型具有很好的可解释性
。
线性回归
均方误差
是回归任务中最常用的性能度量。均方误差有非常好的几何意义,它对应了常用的欧氏距离
。基于均方误差最小化来进行模型求解的方法称为最小二乘法
。
逻辑回归
如果要做二分类任务,线性回归模型产生的预测值是z=wx+b
是实值,因此,我们需要将实值转化成离散值0/1,最理想的是单位阶跃函数
,z>0
判为正例,z<0
判为负例,z=0
可任意判别。但是单位阶跃函数不连续,因此我们考虑找到一种单调可微的替代函数——对数几率函数(logistic function):
该函数是一种Sigmoid函数,它将z
值转化为一个接近0或1的y
值,并且其输出值在z=0
附近变化很陡。将y
视为样本作为正例的类后验概率估计p(y=1|x)
,之后可通过极大似然法
来估计参数w
和b
。
逻辑回归虽然名字叫回归,实际是一种分类任务学习方法。
线性判别分析
线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的线性学习方法,在二分类问题上最早由Fisher提出。
LDA的思想:给定训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能接近
,异类样本的投影点尽可能远离
;在对新样本进行分类时,也将其投影到该直线上,再根据投影点的位置来确定新样本的类别。
LDA也可以推广到多分类任务中。多分类LDA将样本投影到d'
维空间,d'
通常远小于原有的属性数d
。于是,可以通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维
技术。
多分类学习
我们可以基于一些基本策略,将多分类任务拆解为若干个二分类任务求解。
- 一对一(OvO):将
N
个类别两两配对,从而产生N(N-1)/2
个二分类任务。在测试阶段,新样本会得到N(N-1)/2
个分类结果,最终结果可通过投票产生。 - 一对其余(OvR):每次将一个类的样例作为正例,所有其他类的样例作为反例来训练
N
个分类器。在测试时,若只有一个分类器预测为正类,则该类为分类结果;若有多个分类器预测为正类,则选择置信度最大的类别作为分类结果。 - 多对多(MvM):每次将若干个类作为正例,若干个其他类作为反例。MvM的正、反类构造必须有特殊的设计,不能随意选取。一种最常用的MvM技术是
纠错输出码
。
类别不平衡
类别不平衡是指分类任务中不同类别的训练样本数目差别很大
的情况。
- 欠采样:去除一些反例使得正、反例数目接近。
若随机丢弃样本,可能会丢失一些信息,代表性算法EasyEnsemble利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但全局来看不会丢失重要信息。 - 过采样:增加一些正例使得正、反例数目接近。
若简单地对初始正例进行重复采样,容易导致严重的过拟合,代表性算法SMOTE通过对训练集里的正例进行插值来产生额外的正例。 - 阈值移动:直接基于原始数据集进行学习,但是预测时,改变预测为正例的阈值,不再为0.5。
《西瓜书》
《南瓜书》
网友评论