线性模型

作者: xiaowang627 | 来源:发表于2020-04-21 11:00 被阅读0次

logistics回归分类
Day 3 -- 线性模型（上篇）
2019-02-21
Linear mixed effects models
西瓜书第3章线性模型学习笔记
【机器学习实践】有监督学习：线性分类、回归模型
线性模型-线性回归
数学与统计虐我千百遍……
Python机器学习之线性模型
西瓜书-线性模型

一线性模型特点

形式简单、易于建模、具有特别好的可解释性——权重大小就直接表示该属性的重要程度。

二线性回归

1. 定义：给定数据集 $D=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\}$ ，其中 $x_i=(x_{i1};x_{i2};...;x_{id}),y_i\in R.$ “线性回归”试图学习得一个线性模型以尽可能准确地预测实际输出标记。

2. 一元线性回归：输入属性的数目只有一个，权重w是一个数。即 $D=\left\{(x_i,y_i)\right\}_{i=1}^m,x_i\in R.$ 线性回归试图学得 $f(x_i)=wx_i+b$ ，使得 $f(x_i)\cong y_i$ 。

3. 线性回归的主要任务在于如何确定w和b，这又决定于如何衡量f(x)与y之间的差别——均方误差是回归任务中最常用的性能度量(均方误差有非常好的几何意义，对应了常用的欧几里得距离，基于均方误差最小化来进行模型求解的方法称为“最小二乘法”)，因此我们可试图让均方误差最小化（找到一条直线，使所有样本到直线上的欧氏距离之和最小），即：

$(w^*,b^*)=argmin\sum_{i=1}^m(f(x_i)-y_i)^2=argmin\sum_{i=1}^m(y_i-wx_i-b)^2$

4. 求解w和b使 $E_{w,b}=\sum\nolimits_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”。

5. 求解方法：将 $E_{(w,b)}$ 分别对w和b求导，并令倒数为零便可得到w和b最优解的闭式解。

$\frac{\partial E_{(w,b)}}{\partial w}=\sum_{i=1}^m2*(y_i-wx_i-b)*-x_i=\sum_{i=1}^m2*(wx_i^2+bx_i-y_ix_i)$

$=2(w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i )$

$\frac{\partial E_{(w,b)}}{\partial b}=\sum_{i=1}^m2*(y_i-wx_i-b)*-1=\sum_{i=1}^m2*(b-(y_i-wx_i))=2*(\sum_{i=1}^mb-\sum_{i=1}^m(y_i-wx_i) )$

$=2(mb-\sum_{i=1}^m(y_i-wx_i) )$

由于 $\frac{\partial ^{2} E_{(w,b)}}{\partial w^{2}}=2\sum_{i=1}^mx_i^2>0$ ； $\frac{\partial ^{2} E_{(w,b)}}{\partial b^{2}}=2m>0$ ，在一阶倒数最小处必然取得极小值。令：

$\left\{ \begin{array}{**lr**} w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i=0, & \\ mb-\sum_{i=1}^m(y_i-wx_i) =0, & \end{array} \right.$ --> $\left\{ \begin{array}{**lr**} w=\frac{\sum_{i=1}^my_i(x_i-\frac{1}{m}\sum_{i=1}^mx_i ) }{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i )^2 } , & \\ b =\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) , & \end{array} \right.$

6. 多元线性回归：样本由d个属性描述，多元回归试图学得，使得 $f(x_i)=w^Tx_i+b$ ，使得 $f(x_i)\cong y_i$ 。

7.广义线性回归：令线性模型预测值逼近y的衍生物，例如对数线性回归： $lny=w^Tx+b$ ，它试图让 $e^{w^Tx+b}$ 逼近y，形式上仍是线性回归，但实质上在求取输入空间到输出空间的非线性函数映射。

三对数几率回归（逻辑斯蒂回归）

1. 若要进行分类，需要将分类任务的真实标记与线性回归模型的预测值联系起来——通过一个单调可微函数。

2. 考虑二分类任务，其输出标记 $y\in \left\{ 0,1 \right\}$ ，将线性回归产生的实值转换为0/1值，最理想的是“单位阶跃函数”，即若预测值z大于零就判为正例，小于零则判为反例，预测值为临界值零则可任意判别。但是该函数不连续--->选择一定程度上近似单位阶跃函数的对数几率函数——一种“Sigmoid函数”（形似S的函数）。定义如下：

$y=\frac{1}{1+e^{-z}} =\frac{1}{1+e^{w^Tx+b}}$ ---> $ln\frac{y}{1-y} =w^Tx+b$ （对数几率，用线性模型去逼近真实标记的对数几率）--->对数几率回归（logit regression/逻辑斯蒂回归），虽然名字是“回归”，但实际是一种分类学习方法。

3. 对数几率回归的优势：（1）直接对分类可能性进行建模，无需事先假设数据分布，可避免假设分布不准确所带来的问题；（2）它不是仅预测出“类别”，而是可得到近似概率预测，这对许多需利用概率辅助决策的任务很有用；（3）对数几率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。

4. 模型参数估计：若将y视为类后验概率估计p(y=1 | x)，则2中的式子可重写为：

$ln\frac{p(y=1|x)}{p(y=0|x)} =w^Tx+b$ ---> $\left\{ \begin{array}{**lr**} p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} , & \\ p(y=0|x) =\frac{1}{1+e^{w^Tx+b}} .& \end{array} \right.$

（二项逻辑斯蒂回归模型，对于输入x，比较两个条件概率值的大小，将实例x分到概率值较大的那一类）

于是可以通过“极大似然法”来估计w和b。给定数据集 $\left\{ (x_i,y_i) \right\}^m_{i=1}$ ，对数几率回归模型最大化“对数似然”： $l(w,b) = \sum_{i=1}^mlnp(y_i|x_i;w,b),$ 即令每个样本属于真实标记的概率越大越好。

5. 对数似然函数详细推导：对于给定的训练数据集 $T=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\}$ ，其中 $x_i\in R^n,y_i\in \left\{ 0,1 \right\} ,$ 对于单个样本 $x_i$ ， $y_i$ =1的概率是 $P(y_i=1|x_i)$ ， $y_i$ =0的概率是 $P(y_i=0|x_i)$ ，所以对于单个样本应该最大化 $[P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}$ ，对于所有m个样本其似然函数为： $\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}$ ，对数似然函数为

$ln\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i} =\sum_{i=1}^mln[ [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}]$

$=\sum_{i=1}^m[y_iln [P(y_i=1|x_i)]+ln[P(y_i=0|x_i)]-y_iln[P(y_i=0|x_i)]]$

$=\sum_{i=1}^m[y_iln\frac{P(y_i=1|x_i)}{P(y_i=0|x_i)}+ln[P(y_i=0|x_i)] ]$ ，根据逻辑斯蒂回归函数可得以下式子：

$=\sum_{i=1}^m[y_i(w^Tx+b)+ln\frac{1}{1+e^{w^Tx+b}} ]$

$=\sum_{i=1}^m[y_i(w^Tx+b)-ln(1+e^{w^Tx+b})]$

则对上式求极大值便能得到w和b得估计值，求极大值通常采用的方法是梯度下降法和拟牛顿法。

6. 多项逻辑斯蒂回归：多分类问题中，变量 $y_i\in \left\{ 1,2,...,K \right\}$ ，那么多项逻辑斯蒂回归模型是：

$\left\{ \begin{array}{**lr**} p(y=k|x)=\frac{e^{w^Tx+b}}{1+\sum_{k=1}^{K-1} e^{w_k^Tx+b}} ,k=1,2,...,K-1 & \\ p(y=K|x) =\frac{1}{1+\sum_{k=1}^{K-1}e^{w_k^Tx+b}} .& \end{array} \right.$

二项逻辑斯蒂回归的参数估计方法也可以推广到多项逻辑斯蒂回归。

备注：《机器学习》第3章笔记，《统计学习方法》第6章。

四感知机

1. 定义：假设输入空间（特征向量）是 $\chi \in R^n$ ，输出空间是 $y=\left\{ +1,-1\right\}$ 。输入 $x\in \chi$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\in y$ 表示实例的类别。由输入空间到输出空间的如下函数称为感知机：

$f(x)=sign(wx+b)$ ，w为权值，b为偏置。

2. 感知机学习目标：求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。

3. 感知机学习策略（损失函数）：误分类点到超平面S的总距离最小。

1）输入空间中任一点 $x_0$ 到超平面S到距离： $\frac{1}{\left\|w\right\|_2} \vert wx_0+b \vert$ ；

2）误分类点 $x_i$ 到超平面S的距离： $-\frac{1}{\left\|w\right\|_2} y_i(wx_i+b)$ ；

3）所有M个误分类点到超平面S的总距离： $-\frac{1}{\left\|w\right\|_2}\sum_{x_i\in M} y_i(wx_i+b)$ ；

4）不考虑常数项，感知机学习的损失函数（经验风险函数）： $L(w,b)=-\sum_{x_i\in M} y_i(wx_i+b)$ 。

5）感知机的学习策略：在假设空间中选取使该损失函数最小的模型参数。

4. 感知机学习算法：求解损失函数最优化问题-->随机梯度下降。首先，任意选取一个超平面 $w_0,b_0$ ，然后采用梯度下降法不断地极小化目标函数，极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。感知机算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件-->线性支持向量机。

备注：《统计学习方法》第2章笔记。

logistics回归分类
logistics回归分类模型和线性模型的关系非常密切；区分下线性回归模型和线性模型；线性模型：自变量和因变量之间...
Day 3 -- 线性模型（上篇）
第三章线性模型本节文章主要讨论线性模型的回归，属于线性模型上篇，主要介绍线性模型的基本形式，线性模型的回归原理以...
2019-02-21
ML——线性模型基本形式线性模型就是用于预测的模型是线性的，模型形式如下： ...
Linear mixed effects models
提到线性模型可能会联想到三大类：一般线性模型广义线性模型混合线性模型一般线性模型比较简单，模拟线性关系，求...
西瓜书第3章线性模型学习笔记
第3章线性模型 3.1 基本形式线性模型：向量形式表示线性模型： 3.2 线性回归线性回归试图学得：均方误差...
【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
线性模型-线性回归
线性模型线性模型利用输入特征的线性函数（linear function）进行预测。线性模型预测的一般公式如下：...
数学与统计虐我千百遍……
被数学和统计虐惨的我广义线性模型广义可加模型广义估计方程线性混合模型线性相加模型广义线性混合模型一般...
Python机器学习之线性模型
一、线性模型基本概念线性模型不是指某一个模型，而是一类模型。在机器学习领域，常用的线性模型包括，线性回归、岭回...
西瓜书-线性模型
线性模型西瓜书第二章，线性模型；