一般向量形式为
1.线性回归
性能度量 均方误差 (square loss) =
=
表示和的解。
基于square loss来进行模型求解的方法称为“最小二乘法”(least square method),在线性回归中,最小二乘法就是,找到一条直线,使得样本到直线上的欧式距离之和最小。
求解 = 最小化的过程,称为回归模型的最小二乘“参数估计”,这里是关于和的凸函数,当它关于和的导数均为0时,得到和的最优解。
在实际数据集上的函数,可以通过求二阶导数来判断,若二阶导数在区间上非负,则称为凸函数,若二阶导数在区间上恒大于0,则称为严格凸函数。凸函数为U型。
= , (1)
= , (2)
令(1)(2)为0 ,得到 和 的最优解的闭式解
= ,
其中 = .
2. 多元线性回归
形式 : , 使得 ,
把 w 和 d 收入向量形式 , 把数据集 表示为一个 大小的矩阵,
每一行对应一个x,前d列对应x的d个属性值,最后一个元素恒为1.
+ + +
, = ,
令 = 2
当 是满秩或正定矩阵时,令 为0, 得到
令 回归模型为
现实任务中 往往不是满秩矩阵,许多任务中会遇到大量变量,超出样例数,导致的列数多于行数,此时可解出多个 ,它们都能使均方误差最小化,选择哪一中解作为输出,由学习算法的归纳偏好决定,常见的做法是引入正则化。
3. 对数线性回归
示例所对应的输出标记是在指数尺度上变化,那就将输出标记的对数作为线性模型逼近的目标, 即
(3)
他实际是试图让 逼近 , (3)在形式上仍是线性回归,实质上已经是在求输入空间到输出空间的非线性函数映射。
对数线性回归更一般地,考虑单调可微函数, 令.这样的模型称为“广义线性模型”,其中函数称为联系函数,对数线性回归是广义线性模型在的特例。
4 对数几率回归(逻辑回归 分类任务)
考虑二分类任务, 其输出 {0, 1}, 线性回归模型产生的预测值 是实值, 于是,需要将实值z转换为0/1值, 对数几率函数类似单位阶跃函数,且连续可微。
sigmoid 函数即形似S的函数,logistic function 是sigmoid函数最重要的代表。
将logistic function 代入 g^(-1)()中 得到 (4)
(5) , 将y视为样本x的正例的可能性,则1-y为反例的可能性, 两者的比值 称为“几率”(odds), 反映了x作为正例的相对可能性, 对几率取对数则得到“对数几率” log odds ,也称为logit
将(4)中的y视为类后验概率估计 , (5) 可重写为 : = ,
显然有, ,
于是用“极大似然估计”来估计 和 ,给定数据集 {}, 逻辑回归最大化“对数似然” (log likehood) = , (6)
为便于讨论,令 , 则 可以简写成 ,
再令 = , = = ,
则似然函数可以重写为 = (7)
(7) 代入(6)中, 最大化(6)等价于最小化
(8),
(8) 是关于 的高阶可导连续凸函数, 根据凸优化理论,可以用梯度下降法, 牛顿法 求最优解,
以牛顿法为例,第轮迭代更新公式为 -
关于的一阶导
=
5 .线性判别模型(linear Discriminant Analysis, LDA)
LDA的思想:给定训练样例集, 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据新样本投影点的位置来确定新样本的类别。
LDA 将样本投影到 维空间,通常远小于数据原有的属性数 ,于是,可通过这个投影来减小样本点的维数, 且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。
6. 类的不平衡问题
令 表示正例数目, 为反例数目, 则观测几率 是.
若 则预测为正例
方法1: 反例 欠采样
方法2: 正例 过采样
方法3: 直接基于原始数据集进行学习,但是用训练好的分类器进行预测时, 将 嵌入到其决策过程中,称为“阈值移动”
网友评论