美文网首页
线性回归

线性回归

作者: 抠脚_b41d | 来源:发表于2019-03-19 10:48 被阅读0次

    [Chapter 3 - 线性回归]

    简单线性回归

    形如\normalsize Y \approx \beta_{0} + \beta_{1}X,其中\beta_{0} 截距为\beta_{1} 为斜率,\beta_{0}\beta_{1} 被称为系数或者参数

    计算模型系数

    计算\beta_{0}\beta_{1} 使得直线和点之间的距离之和最小
    i \text{个}回归值的残差为

    \normalsize e_{i} = y_{i} - \hat{y_{i}} = y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i} .
    则残差平方和RSS为:
    \normalsize RSS = e_{1}^2 + e_{2}^2 + \ldots + e_{n}^2
    \normalsize RSS = (y_{1} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{1})^2 + (y_{2}- \hat{\beta_{0}} - \hat{\beta_{1}}x_{2})^2 + \ldots + (y_{n} - \hat{\beta_{0}}- \hat{\beta_{1}}x_{n})^2 .

    假设样本均值为
    \normalsize \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i}
    \normalsize \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} ,
    最小二乘法的的回归结果为:
    \normalsize \beta_{1} = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

    \normalsize \beta_{0} = \bar{y} - \hat{\beta_{1}}\bar{x}

    评估系数准确性

    对于模型\normalsize Y = \beta_{0} + \beta_{1}X + \epsilon和回归线\normalsize \hat{y_{i}} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} .
    标准差SE

    \normalsize \mathrm{SE}(\beta_{0})^{2} = \sigma^{2}\bigg[\frac{1}{n} + \frac{\bar{x}^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}\bigg]

    \normalsize \mathrm{SE}(\beta_{1})^{2} = \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

    其中 \sigma^{2} = \mathrm{Var}(\epsilon) 并且\epsilon_{i}\sigma^{2}没有协相关关系.

    残差标准差为:

    \normalsize \mathrm{RSE} = \sqrt{\frac{\mathrm{RSS}}{(n - 2)}}

    其中\mathrm{RSS} 为残差方差之和.

    标准差可以用来计算置信区间(在一定可信度下能够包含未知参数真实数值的区间)

    简单的线性回归下 \beta_{1}的95% 置信区间可以估计为
    \normalsize \hat{\beta_{1}} \pm 2 \times \mathrm{SE}(\hat{\beta_{1}}) .
    相似的\beta_{0}可以估计为
    \normalsize \hat{\beta_{0}} \pm 2 \times \mathrm{SE}(\hat{\beta_{0}}) .

    当我们想计算单个响应值y = f(x) + \epsilon, 我们使用 预测区间;当我们想计算平均响应值f(x),我们使用置信区间

    假设检验:

    对于以下两种假设:
    H_{0}: XY不相关
    H_{1}: XY相关
    我们可以采用T-检验进行估计
    T-statistic 计算为:
    \normalsize t = \frac{\hat{\beta}_{1} - 0}{\mathrm{SE}(\hat{\beta_{1}})}
    如果XY无关, n - 2 自由度的t-分布将会获得。
    那么我们可以计算当前模型得到的t计算数据对应的概率p-value,如果p-value足够小,我们就可以拒绝假设H_{0}.

    使用R^{2}评估模型准确度

    \normalsize R^{2} = \frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}}

    其中:

    \normalsize \mathrm{RSS} = \sum_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}

    \normalsize \mathrm{TSS} = \sum_{i=1}^{n}(y_{i} - \bar{y}_{i})^{2} .
    R^{2}可以计算模型拟合后减少的数据的自由度,R^{2}越接近1,那么模型拟合的就越好,具体需要的R^{2}的数据需要依据实际情况进行判定。

    协相关系数

    \normalsize \mathrm{Cor}(X,Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}

    多变量回归

    形如:\normalsize Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \ldots +\beta_{p}X_{p} + \epsilon .

    F检验

    对多变量提出以下假设:
    \normalsize H_{0}: \beta_{1} = \beta_{2} = \ldots = \beta_{p} = 0
    H_{a}: at\ least\ one\ of B_{j} \ne 0 .
    F-检验可以检测哪种假设为真

    F-statistic计算为:

    \normalsize \mathrm{F} = \frac{(\mathrm{TSS} -\mathrm{RSS})/p}{\mathrm{RSS}/(n - p - 1)} = \frac{\frac{\mathrm{TSS} -\mathrm{RSS}}{p}}{\frac{\mathrm{RSS}}{n - p- 1}}

    如果为H_{a}成立,
    \normalsize \mathrm{E}\{\frac{\mathrm{RSS}}{n - p - 1}\} = \sigma^{2}

    相反如果H_{0}成立,

    \normalsize \mathrm{E}\{\frac{\mathrm{TSS} - \mathrm{RSS}}{p}\} = \sigma^{2}即F检验的数据会接近1;相反, 如果H_{a}成立,F值会大于1 .

    n 较大时, F-statistic稍大于1就很可能拒绝H_{0}. 如果n比较小, 则需要较大的F值才行。

    定性预测

    通过编码
    \normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0 \ &\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
    获得模型
    \normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
    或者编码
    \normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ -1&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
    获得模型
    \normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.

    对于三变量的话:
    \normalsize X_{i1} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

    \normalsize X_{i2} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0 &\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

    \normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .

    变量互作,非线性关系

    形如
    \normalsize \mathrm{Y} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon
    变量没有互作时:
    \normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
    加上互作后变为:
    \normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2} + \beta_{3}X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
    等价于:
    \normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.

    线性回归常见问题

    1. 非线性关系


      非线性关系

      左图为线性拟合的结果,右图加上了平方变量,显然右图更加符合标准

    2. 误差相关性(时间序列模型)


      误差相关性

      一图误差随机分布,二图则具有了一定的关联,在相近的地方,取值具有趋同性,这样误差皆为正或者负值,三图具有明显的时间序列模型的模式。

    3. 误差不为常量


      误差逐渐增大
    4. 离群值


      离群值
    1. 高杠杆率值


      高杠杆率值
    2. 共线性


      共线性

      共线性带来的数据预测区域过窄,如右图

    相关文章

      网友评论

          本文标题:线性回归

          本文链接:https://www.haomeiwen.com/subject/sebwmqtx.html