美文网首页
线性模型

线性模型

作者: cornbig | 来源:发表于2020-12-17 15:57 被阅读0次

    一般向量形式为 f(x)=w^T +b

    1.线性回归

    性能度量 均方误差 (square loss) (w^*,b^*)  =  arg min_{(w,b)} \sum_{i=1}^m (f(x_i) - y_i)^2

                                                                            = arg  min_{(w,b)}\sum_{i=1}^m (y_i - wx_i-b)^2

    w^*,b^*表示wb的解。

    基于square loss来进行模型求解的方法称为“最小二乘法”(least square method),在线性回归中,最小二乘法就是,找到一条直线,使得样本到直线上的欧式距离之和最小。

    求解E_{(w,b)}   = \sum_{i=1}^m(y_i - wx_i - b)^2 最小化的过程,称为回归模型的最小二乘“参数估计”,这里E_{(w,b)}  是关于wb的凸函数,当它关于wb的导数均为0时,得到wb的最优解。

    在实际数据集上的函数,可以通过求二阶导数来判断,若二阶导数在区间上非负,则称为凸函数,若二阶导数在区间上恒大于0,则称为严格凸函数。凸函数为U型。

    \frac{\partial E_(w,b)}{\partial w}  = 2(w \sum_{i=1}^m {x_i}^2 - \sum_{i=1}^m(y_i-b)x_i),    (1)

    \frac{\partial E_(w,b)}{\partial b}  = 2(mb - \sum_{i=1}^m (y_i - wx_i)), (2)

    令(1)(2)为0 ,得到w 和 b的最优解的闭式解

    w  = \frac{\sum_{i=1}^m y_i(x_i - \overline{x} )}{\sum_{i=1}^m {x_i}^2 - \frac{1}{m}(\sum_{i=1}^m x_i)^2}  , b = \frac{1}{m}\sum_{i=1}^m(y_i - wx_i)

    其中\overline{x} = \frac{1}{m}\sum_{i=1}^m x_i .

    2. 多元线性回归 

    形式 :f(x_i) = w^Tx_i +b , 使得 f(x_i)\cong y_i

    把 w 和 d 收入向量形式 \hat{w} =(w;b) , 把数据集D 表示为一个m\times (d+1) 大小的矩阵X

    X每一行对应一个x,前d列对应x的d个属性值,最后一个元素恒为1.

    E_{\hat{w}} = (y_1- \hat{w}^T\hat{x_1})^2 + (y_2- \hat{w}^T\hat{x_2})^2 + ... + (y_m- \hat{w}^T\hat{x_m})^2

    E_{\hat{w}} = (y - X\hat{w})^T(y-X\hat{w})\hat{w}^* = arg  min_{\hat{w}}  (y - X\hat{w})^T(y-X\hat{w}),

    令 \frac{\partial E_{\hat{w}} }{\partial \hat{w}}  = 2 X^T(X\hat{w} - y)

    X^TX 是满秩或正定矩阵时,令\frac{\partial E_{\hat{w}} }{\partial \hat{w}}  为0, 得到 \hat{w}^* =  (X^TX)^{-1}X^Ty

    \hat{x_i} = (x_i;1) 回归模型为 f(\hat{x}_i) = \hat{x}_i^T (X^TX)^{-1}X^Ty

    现实任务中X^TX 往往不是满秩矩阵,许多任务中会遇到大量变量,超出样例数,导致X的列数多于行数,此时可解出多个\hat{w} ,它们都能使均方误差最小化,选择哪一中解作为输出,由学习算法的归纳偏好决定,常见的做法是引入正则化。

    3. 对数线性回归

    示例所对应的输出标记是在指数尺度上变化,那就将输出标记的对数作为线性模型逼近的目标, 即

    ln y = w^T x + b     (3)

    他实际是试图让e^{(w^Tx + b)} 逼近 y , (3)在形式上仍是线性回归,实质上已经是在求输入空间到输出空间的非线性函数映射。

    对数线性回归

    更一般地,考虑单调可微函数g(\cdot ), 令y = g^{-1}(w^Tx + b).这样的模型称为“广义线性模型”,其中函数g(\cdot )称为联系函数,对数线性回归是广义线性模型在g(\cdot ) = ln(\cdot )的特例。

    4 对数几率回归(逻辑回归 分类任务)

    考虑二分类任务, 其输出 y \in  {0, 1}, 线性回归模型产生的预测值 z = w^Tx + b 是实值, 于是,需要将实值z转换为0/1值, 对数几率函数类似单位阶跃函数,且连续可微。

    y = \frac{1}{1+e^{-z}}  

    sigmoid 函数即形似S的函数,logistic function 是sigmoid函数最重要的代表。

    将logistic function 代入 g^(-1)(\cdot )中 得到 y = \frac{1}{1+e^{-(w^Tx+b)}}   (4)

    ln \frac{y}{1-y} = w^Tx + b (5) , 将y视为样本x的正例的可能性,则1-y为反例的可能性, 两者的比值\frac{y}{1-y}  称为“几率”(odds), 反映了x作为正例的相对可能性, 对几率取对数则得到“对数几率” log odds ,也称为logit

    将(4)中的y视为类后验概率估计P(y=1|x) ,  (5) 可重写为 :ln \frac{P(y=1|x)}{P(y=0|x)}  =  w^Tx + b ,

    显然有, P(y=1|x) =  \frac{e^{(w^Tx+b)}}{1+e^{(w^Tx+b)}}  ,P(y=0|x) =  \frac{1}{1+e^{(w^Tx+b)}}

    于是用“极大似然估计”来估计w 和b ,给定数据集 {(x_i, y_i)}_{i=1}^m, 逻辑回归最大化“对数似然” (log likehood) l(w,b) = \sum_{i=1}^m  ln p(y_i|x_i\vert w,b), (6)

    为便于讨论,令\beta = (w;b) , \hat{x}  = (x;1) 则  w^Tx + b 可以简写成\beta ^T \hat{x} ,

    再令p_{1}(\hat{x};\beta )  = p(y= 1\vert \hat{x};\beta ) , p_{0}(\hat{x};\beta )  = p(y= 0\vert \hat{x};\beta ) = 1-p_1(\hat{x};\beta )

    则似然函数可以重写为 p(y_i\vert x_i;w,b) = y_ip_1(\hat{x}_i;\beta ) +(1-y_i)p_0(\hat{x}_i;\beta) (7)

    (7) 代入(6)中, 最大化(6)等价于最小化

    l(\beta ) = \sum_{i=1}^m(-y_i\beta^T\hat{x}_i + ln(1+e^{\beta^T\hat{x}_i})) (8),

    (8) 是关于\beta  的高阶可导连续凸函数, 根据凸优化理论,可以用梯度下降法, 牛顿法 求最优解,

    \beta^* = arg min_{\beta}  l(\beta)

    以牛顿法为例,第t+1轮迭代更新公式为 \beta^{t+1} =  \beta^t - (\frac{\partial^2l(\beta)}{\partial\beta\partial \beta ^T})^{-1}\frac{\partial l(\beta)}{\partial\beta}

    关于\beta的一阶导 \frac{\partial l(\beta)}{\partial\beta}= -\sum_{i=1}^m \hat{x}_i(y_i -p_1(\hat{x}_i;\beta)) 

    (\frac{\partial^2l(\beta)}{\partial\beta\partial \beta ^T})^{-1} = \sum_{i=1}^m  \hat{x}_i {\hat{x}_i}^T p_1 (\hat{x}_i ; \beta)(1-p_1(\hat{x}_i;\beta))

    5 .线性判别模型(linear Discriminant Analysis, LDA)

    LDA的思想:给定训练样例集, 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据新样本投影点的位置来确定新样本的类别。

    LDA 将样本投影到d^"  维空间,d^"通常远小于数据原有的属性数d ,于是,可通过这个投影来减小样本点的维数, 且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。

    6. 类的不平衡问题

    m^{+} 表示正例数目, m^{-} 为反例数目, 则观测几率 是\frac{m^+}{m^-} .

    \frac{y}{1-y} > \frac{m^+}{m^-} 则预测为正例

    方法1: 反例 欠采样

    方法2: 正例 过采样

    方法3: 直接基于原始数据集进行学习,但是用训练好的分类器进行预测时, 将 \frac{y^*}{1-y*} = \frac{y}{1-y} \times \frac{m^-}{m^+} 嵌入到其决策过程中,称为“阈值移动”

    相关文章

      网友评论

          本文标题:线性模型

          本文链接:https://www.haomeiwen.com/subject/nxgngktx.html