线性回归

作者: 抠脚_b41d | 来源:发表于2019-03-19 10:48 被阅读0次

机器学习实战——回归
线性回归模型
通俗得说线性回归算法（二）线性回归实战
第一次打卡
2020-02-14
逻辑回归和线性回归对比
算法概述-02
【机器学习实践】有监督学习：线性分类、回归模型
统计学习基础复习浓缩版
Linear Regression

[Chapter 3 - 线性回归]

简单线性回归

形如 $\normalsize Y \approx \beta_{0} + \beta_{1}X$ ，其中 $\beta_{0}$ 截距为 $\beta_{1}$ 为斜率， $\beta_{0}$ 和 $\beta_{1}$ 被称为系数或者参数

计算模型系数

计算 $\beta_{0}$ 和 $\beta_{1}$ 使得直线和点之间的距离之和最小
第 $i \text{个}$ 回归值的残差为

$\normalsize e_{i} = y_{i} - \hat{y_{i}} = y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i} .$
则残差平方和 $RSS$ 为：
$\normalsize RSS = e_{1}^2 + e_{2}^2 + \ldots + e_{n}^2$ 或
$\normalsize RSS = (y_{1} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{1})^2 + (y_{2}- \hat{\beta_{0}} - \hat{\beta_{1}}x_{2})^2 + \ldots + (y_{n} - \hat{\beta_{0}}- \hat{\beta_{1}}x_{n})^2 .$

假设样本均值为
$\normalsize \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i}$
$\normalsize \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} ,$
最小二乘法的的回归结果为：
$\normalsize \beta_{1} = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}$

$\normalsize \beta_{0} = \bar{y} - \hat{\beta_{1}}\bar{x}$

评估系数准确性

对于模型 $\normalsize Y = \beta_{0} + \beta_{1}X + \epsilon$ 和回归线 $\normalsize \hat{y_{i}} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} .$
标准差 $SE$ 为

$\normalsize \mathrm{SE}(\beta_{0})^{2} = \sigma^{2}\bigg[\frac{1}{n} + \frac{\bar{x}^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}\bigg]$

$\normalsize \mathrm{SE}(\beta_{1})^{2} = \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}$

其中 $\sigma^{2} = \mathrm{Var}(\epsilon)$ 并且 $\epsilon_{i}$ 与 $\sigma^{2}$ 没有协相关关系.

残差标准差为：

$\normalsize \mathrm{RSE} = \sqrt{\frac{\mathrm{RSS}}{(n - 2)}}$

其中 $\mathrm{RSS}$ 为残差方差之和.

标准差可以用来计算置信区间（在一定可信度下能够包含未知参数真实数值的区间）

简单的线性回归下 $\beta_{1}$ 的95% 置信区间可以估计为
$\normalsize \hat{\beta_{1}} \pm 2 \times \mathrm{SE}(\hat{\beta_{1}}) .$
相似的 $\beta_{0}$ 可以估计为
$\normalsize \hat{\beta_{0}} \pm 2 \times \mathrm{SE}(\hat{\beta_{0}}) .$

当我们想计算单个响应值 $y = f(x) + \epsilon$ , 我们使用预测区间；当我们想计算平均响应值 $f(x)$ ，我们使用置信区间

假设检验：

对于以下两种假设：
$H_{0}$ : $X$ 和 $Y$ 不相关
$H_{1}$ : $X$ 和 $Y$ 相关
我们可以采用T-检验进行估计
T-statistic 计算为：
$\normalsize t = \frac{\hat{\beta}_{1} - 0}{\mathrm{SE}(\hat{\beta_{1}})}$
如果 $X$ 和 $Y$ 无关, $n - 2$ 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value，如果p-value足够小，我们就可以拒绝假设 $H_{0}$ .

使用 $R^{2}$ 评估模型准确度

$\normalsize R^{2} = \frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}}$

其中：

$\normalsize \mathrm{RSS} = \sum_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}$

$\normalsize \mathrm{TSS} = \sum_{i=1}^{n}(y_{i} - \bar{y}_{i})^{2} .$
$R^{2}$ 可以计算模型拟合后减少的数据的自由度， $R^{2}$ 越接近1，那么模型拟合的就越好，具体需要的 $R^{2}$ 的数据需要依据实际情况进行判定。

协相关系数

$\normalsize \mathrm{Cor}(X,Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$

多变量回归

形如： $\normalsize Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \ldots +\beta_{p}X_{p} + \epsilon .$

F检验

对多变量提出以下假设：
$\normalsize H_{0}: \beta_{1} = \beta_{2} = \ldots = \beta_{p} = 0$
$H_{a}: at\ least\ one\ of B_{j} \ne 0 .$
F-检验可以检测哪种假设为真

F-statistic计算为：

$\normalsize \mathrm{F} = \frac{(\mathrm{TSS} -\mathrm{RSS})/p}{\mathrm{RSS}/(n - p - 1)} = \frac{\frac{\mathrm{TSS} -\mathrm{RSS}}{p}}{\frac{\mathrm{RSS}}{n - p- 1}}$

如果为 $H_{a}$ 成立，
$\normalsize \mathrm{E}\{\frac{\mathrm{RSS}}{n - p - 1}\} = \sigma^{2}$

相反如果 $H_{0}$ 成立，

$\normalsize \mathrm{E}\{\frac{\mathrm{TSS} - \mathrm{RSS}}{p}\} = \sigma^{2}$ 即F检验的数据会接近 $1$ ；相反, 如果 $H_{a}$ 成立，F值会大于 $1 .$

当 $n$ 较大时, F-statistic稍大于 $1$ 就很可能拒绝 $H_{0}$ . 如果 $n$ 比较小, 则需要较大的F值才行。

定性预测

通过编码
$\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0 \ &\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
获得模型
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
或者编码
$\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ -1&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$
获得模型
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.$

对于三变量的话：
$\normalsize X_{i1} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.$

$\normalsize X_{i2} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0 &\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.$

$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .$

变量互作，非线性关系

形如
$\normalsize \mathrm{Y} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon$
变量没有互作时：
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$
加上互作后变为：
$\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2} + \beta_{3}X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$
等价于：
$\normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.$

线性回归常见问题

非线性关系

非线性关系

左图为线性拟合的结果，右图加上了平方变量，显然右图更加符合标准
误差相关性（时间序列模型）

误差相关性

一图误差随机分布，二图则具有了一定的关联，在相近的地方，取值具有趋同性，这样误差皆为正或者负值，三图具有明显的时间序列模型的模式。
误差不为常量

误差逐渐增大
离群值

离群值

高杠杆率值

高杠杆率值
共线性

共线性

共线性带来的数据预测区域过窄，如右图

机器学习实战——回归
本章内容】线性回归局部加权线性回归岭回归和逐步线性回归例子【线性回归】 wHat = (X.T*X).I...
线性回归模型
参考：1.使用Python进行线性回归2.python机器学习：多元线性回归3.线性回归概念线性回归模型是线性模...
通俗得说线性回归算法（二）线性回归实战
前情提要：通俗得说线性回归算法（一）线性回归初步介绍一.sklearn线性回归详解 1.1 线性回归参数介绍完...
第一次打卡
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回...
2020-02-14
线性回归：线性回归分为一元线性回归和多元线性回归，一元线性回归用一条直线描述数据之间的关系，多元回归是用一条曲线描...
逻辑回归和线性回归对比
简单说几点线性回归和逻辑回归都是广义线性回归模型的特例。他们俩是兄弟关系，都是广义线性回归的亲儿子线性回归只能...
算法概述-02
1.逻辑回归和线性回归的联系和区别：逻辑回归和线性回归的都是广义的线性回归。线性回归是根据最小二乘法来建模，逻...
【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
统计学习基础复习浓缩版
1.简单线性回归 2.多元线性回归 3.多项式回归 4.广义线性回归(含逻辑斯谛回归）广义线性回归模型通过拟合响...
Linear Regression
在线性回归模型中，我们分为单元线性回归和多元线性回归（Multivariate Linear Regression...

线性回归

[Chapter 3 - 线性回归]

简单线性回归

计算模型系数

评估系数准确性

假设检验：

使用 $R^{2}$ 评估模型准确度

协相关系数

多变量回归

F检验

定性预测

变量互作，非线性关系

线性回归常见问题

相关文章

机器学习实战——回归

线性回归模型

通俗得说线性回归算法（二）线性回归实战

第一次打卡

2020-02-14

逻辑回归和线性回归对比

算法概述-02

【机器学习实践】有监督学习：线性分类、回归模型

统计学习基础复习浓缩版

Linear Regression

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

线性回归

[Chapter 3 - 线性回归]

简单线性回归

计算模型系数

评估系数准确性

假设检验：

使用评估模型准确度

协相关系数

多变量回归

F检验

定性预测

变量互作，非线性关系

线性回归常见问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

使用 $R^{2}$ 评估模型准确度