美文网首页
线性模型

线性模型

作者: cornbig | 来源:发表于2020-12-17 15:57 被阅读0次

一般向量形式为 f(x)=w^T +b

1.线性回归

性能度量 均方误差 (square loss) (w^*,b^*)  =  arg min_{(w,b)} \sum_{i=1}^m (f(x_i) - y_i)^2

                                                                        = arg  min_{(w,b)}\sum_{i=1}^m (y_i - wx_i-b)^2

w^*,b^*表示wb的解。

基于square loss来进行模型求解的方法称为“最小二乘法”(least square method),在线性回归中,最小二乘法就是,找到一条直线,使得样本到直线上的欧式距离之和最小。

求解E_{(w,b)}   = \sum_{i=1}^m(y_i - wx_i - b)^2 最小化的过程,称为回归模型的最小二乘“参数估计”,这里E_{(w,b)}  是关于wb的凸函数,当它关于wb的导数均为0时,得到wb的最优解。

在实际数据集上的函数,可以通过求二阶导数来判断,若二阶导数在区间上非负,则称为凸函数,若二阶导数在区间上恒大于0,则称为严格凸函数。凸函数为U型。

\frac{\partial E_(w,b)}{\partial w}  = 2(w \sum_{i=1}^m {x_i}^2 - \sum_{i=1}^m(y_i-b)x_i),    (1)

\frac{\partial E_(w,b)}{\partial b}  = 2(mb - \sum_{i=1}^m (y_i - wx_i)), (2)

令(1)(2)为0 ,得到w 和 b的最优解的闭式解

w  = \frac{\sum_{i=1}^m y_i(x_i - \overline{x} )}{\sum_{i=1}^m {x_i}^2 - \frac{1}{m}(\sum_{i=1}^m x_i)^2}  , b = \frac{1}{m}\sum_{i=1}^m(y_i - wx_i)

其中\overline{x} = \frac{1}{m}\sum_{i=1}^m x_i .

2. 多元线性回归 

形式 :f(x_i) = w^Tx_i +b , 使得 f(x_i)\cong y_i

把 w 和 d 收入向量形式 \hat{w} =(w;b) , 把数据集D 表示为一个m\times (d+1) 大小的矩阵X

X每一行对应一个x,前d列对应x的d个属性值,最后一个元素恒为1.

E_{\hat{w}} = (y_1- \hat{w}^T\hat{x_1})^2 + (y_2- \hat{w}^T\hat{x_2})^2 + ... + (y_m- \hat{w}^T\hat{x_m})^2

E_{\hat{w}} = (y - X\hat{w})^T(y-X\hat{w})\hat{w}^* = arg  min_{\hat{w}}  (y - X\hat{w})^T(y-X\hat{w}),

令 \frac{\partial E_{\hat{w}} }{\partial \hat{w}}  = 2 X^T(X\hat{w} - y)

X^TX 是满秩或正定矩阵时,令\frac{\partial E_{\hat{w}} }{\partial \hat{w}}  为0, 得到 \hat{w}^* =  (X^TX)^{-1}X^Ty

\hat{x_i} = (x_i;1) 回归模型为 f(\hat{x}_i) = \hat{x}_i^T (X^TX)^{-1}X^Ty

现实任务中X^TX 往往不是满秩矩阵,许多任务中会遇到大量变量,超出样例数,导致X的列数多于行数,此时可解出多个\hat{w} ,它们都能使均方误差最小化,选择哪一中解作为输出,由学习算法的归纳偏好决定,常见的做法是引入正则化。

3. 对数线性回归

示例所对应的输出标记是在指数尺度上变化,那就将输出标记的对数作为线性模型逼近的目标, 即

ln y = w^T x + b     (3)

他实际是试图让e^{(w^Tx + b)} 逼近 y , (3)在形式上仍是线性回归,实质上已经是在求输入空间到输出空间的非线性函数映射。

对数线性回归

更一般地,考虑单调可微函数g(\cdot ), 令y = g^{-1}(w^Tx + b).这样的模型称为“广义线性模型”,其中函数g(\cdot )称为联系函数,对数线性回归是广义线性模型在g(\cdot ) = ln(\cdot )的特例。

4 对数几率回归(逻辑回归 分类任务)

考虑二分类任务, 其输出 y \in  {0, 1}, 线性回归模型产生的预测值 z = w^Tx + b 是实值, 于是,需要将实值z转换为0/1值, 对数几率函数类似单位阶跃函数,且连续可微。

y = \frac{1}{1+e^{-z}}  

sigmoid 函数即形似S的函数,logistic function 是sigmoid函数最重要的代表。

将logistic function 代入 g^(-1)(\cdot )中 得到 y = \frac{1}{1+e^{-(w^Tx+b)}}   (4)

ln \frac{y}{1-y} = w^Tx + b (5) , 将y视为样本x的正例的可能性,则1-y为反例的可能性, 两者的比值\frac{y}{1-y}  称为“几率”(odds), 反映了x作为正例的相对可能性, 对几率取对数则得到“对数几率” log odds ,也称为logit

将(4)中的y视为类后验概率估计P(y=1|x) ,  (5) 可重写为 :ln \frac{P(y=1|x)}{P(y=0|x)}  =  w^Tx + b ,

显然有, P(y=1|x) =  \frac{e^{(w^Tx+b)}}{1+e^{(w^Tx+b)}}  ,P(y=0|x) =  \frac{1}{1+e^{(w^Tx+b)}}

于是用“极大似然估计”来估计w 和b ,给定数据集 {(x_i, y_i)}_{i=1}^m, 逻辑回归最大化“对数似然” (log likehood) l(w,b) = \sum_{i=1}^m  ln p(y_i|x_i\vert w,b), (6)

为便于讨论,令\beta = (w;b) , \hat{x}  = (x;1) 则  w^Tx + b 可以简写成\beta ^T \hat{x} ,

再令p_{1}(\hat{x};\beta )  = p(y= 1\vert \hat{x};\beta ) , p_{0}(\hat{x};\beta )  = p(y= 0\vert \hat{x};\beta ) = 1-p_1(\hat{x};\beta )

则似然函数可以重写为 p(y_i\vert x_i;w,b) = y_ip_1(\hat{x}_i;\beta ) +(1-y_i)p_0(\hat{x}_i;\beta) (7)

(7) 代入(6)中, 最大化(6)等价于最小化

l(\beta ) = \sum_{i=1}^m(-y_i\beta^T\hat{x}_i + ln(1+e^{\beta^T\hat{x}_i})) (8),

(8) 是关于\beta  的高阶可导连续凸函数, 根据凸优化理论,可以用梯度下降法, 牛顿法 求最优解,

\beta^* = arg min_{\beta}  l(\beta)

以牛顿法为例,第t+1轮迭代更新公式为 \beta^{t+1} =  \beta^t - (\frac{\partial^2l(\beta)}{\partial\beta\partial \beta ^T})^{-1}\frac{\partial l(\beta)}{\partial\beta}

关于\beta的一阶导 \frac{\partial l(\beta)}{\partial\beta}= -\sum_{i=1}^m \hat{x}_i(y_i -p_1(\hat{x}_i;\beta)) 

(\frac{\partial^2l(\beta)}{\partial\beta\partial \beta ^T})^{-1} = \sum_{i=1}^m  \hat{x}_i {\hat{x}_i}^T p_1 (\hat{x}_i ; \beta)(1-p_1(\hat{x}_i;\beta))

5 .线性判别模型(linear Discriminant Analysis, LDA)

LDA的思想:给定训练样例集, 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据新样本投影点的位置来确定新样本的类别。

LDA 将样本投影到d^"  维空间,d^"通常远小于数据原有的属性数d ,于是,可通过这个投影来减小样本点的维数, 且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。

6. 类的不平衡问题

m^{+} 表示正例数目, m^{-} 为反例数目, 则观测几率 是\frac{m^+}{m^-} .

\frac{y}{1-y} > \frac{m^+}{m^-} 则预测为正例

方法1: 反例 欠采样

方法2: 正例 过采样

方法3: 直接基于原始数据集进行学习,但是用训练好的分类器进行预测时, 将 \frac{y^*}{1-y*} = \frac{y}{1-y} \times \frac{m^-}{m^+} 嵌入到其决策过程中,称为“阈值移动”

相关文章

  • logistics回归分类

    logistics回归分类模型和线性模型的关系非常密切;区分下线性回归模型和线性模型;线性模型:自变量和因变量之间...

  • Day 3 -- 线性模型(上篇)

    第三章线性模型 本节文章主要讨论线性模型的回归,属于线性模型上篇,主要介绍线性模型的基本形式,线性模型的回归原理以...

  • 2019-02-21

    ML——线性模型 基本形式 线性模型就是用于预测的模型是线性的,模型形式如下: ...

  • Linear mixed effects models

    提到线性模型可能会联想到三大类: 一般线性模型 广义线性模型 混合线性模型 一般线性模型比较简单,模拟线性关系,求...

  • 西瓜书 第3章 线性模型 学习笔记

    第3章 线性模型 3.1 基本形式 线性模型:向量形式表示线性模型: 3.2 线性回归 线性回归试图学得:均方误差...

  • 【机器学习实践】有监督学习:线性分类、回归模型

    线性模型 为线性模型 分类和回归的区别 分类:离散回归:连续本文主要关注线性回归模型 常用线性回归模型类型 OLS...

  • 线性模型-线性回归

    线性模型 线性模型利用输入特征的线性函数(linear function)进行预测。 线性模型预测的一般公式如下:...

  • 数学与统计虐我千百遍……

    被数学和统计虐惨的我 广义线性模型 广义可加模型 广义估计方程 线性混合模型 线性相加模型 广义线性混合模型 一般...

  • Python机器学习之线性模型

    一、线性模型基本概念  线性模型不是指某一个模型,而是一类模型。在机器学习领域,常用的线性模型包括,线性回归、岭回...

  • 西瓜书-线性模型

    线性模型 西瓜书第二章,线性模型;

网友评论

      本文标题:线性模型

      本文链接:https://www.haomeiwen.com/subject/nxgngktx.html