多元相关与回归分析及R使用 - part2

作者: 3between7 | 来源:发表于2020-02-25 16:12 被阅读0次

多元相关与回归分析及R使用 - part2
多元相关与回归分析及R使用 - part1
2020-08-22阅读十分钟收获（坚持第017天）总结中级经济
判别分析及R使用Part2-距离判别法
（未完）主成分分析及R使用Part1-主成分的直观解释
Excel 回归分析解析
回归分析 | R语言 -- 多元线性回归
第三天多元线性回归
第十五章多元线性回归分析
各类统计方法R语言实现（六）

4.4 回归变量的选择方法

多元回归分析主要用途

用于描述解释现象，这时希望回归方程中所包含的自变量尽可能少一些；
用于预测，这时希望预测的均方误差较小；
用于控制，这时希望各回归系数具有较小的方差和均方误差。

变量太多，容易引起的问题

增加模型的复杂；
计算量增大；
估计和预测的精度下降；
模型应用费用增加。

解决方法

从理论上说，自变量选择最好的方法是所有可能回归法，即建立因变量和所有自变量全部子集组合的回归模型，也称全部子集法。

对于每个模型，在实用上，从数据与模型拟合优劣的直观考虑出发，基于残差（误差）平方和的变量选择准则使用的最多。

举例说明

设某数据有4个自变量： $x_1,x_2,x_3,x_4$ 那么所有可能的模型可分为5组子集：

子集A： $y = b_0 \Rightarrow C_4^0 = 1$ 种可能模型；
子集B： $y = b_0 + b_ix_i,i=1,2,3,4 \Rightarrow C_4^1 = 4$ 种可能模型；
子集C： $y = b_0 + b_ix_i + b_jx_j,i \not= j,\ i,j=1,2,3,4 \Rightarrow C_4^2 = 6$ 种可能模型；
子集D： $y = b_0 + b_ix_i + b_jx_j + b_kx_k,i \not= j \not=k ,\ i,j,k=1,2,3,4 \Rightarrow C_4^3 = 4$ 种可能模型；
子集E： $y = b_0 + b_1x_1 + b_2x_2 + b_3x_3 + b_4x_4 \Rightarrow C_4^4 = 1$ 种可能模型；

也就是说一共有 $2^4=16$ 种模型，我们可以使用leaps包中的regsubsets()计算RSS和 $R^2$ 从而选择合适的回归变量：

>library(leaps)
>vaesel = regsubsets(y ~ x1+x2+x3+x4,data)
>result = summary(varsel)
>data.frame(result$outmat,RSS=result$rss,R2=result$rsq)

$R^2$ 和 $RSS$ 准则优缺点
- 优点：具有较大 $R^2$ 以及较少自变量的模型应该是好的选择，较大的意味着有较好的拟合效果，而较少的变量个数可减轻信息的收集和控制。
- 缺点：对于有多个自变量的回归模型来说，当自变量子集在扩大时，残差平方和随之减少。因此，如果按RSS“越小越好”和 $R^2$ “越大越好”的原则来选择自变量子集，则毫无疑问应选择全部自变量。

变量选择的常用准则

平均残差平方和最小；
误差均方根MSE最小；
校正复相关系数平方准则；
马洛斯 $C_p$ 准则；
最小化信息量准则（Akaike Information Criterion,AIC）和贝叶斯信息准则（Bayesian InformationCriterion，BIC）；

R语言代码：

>library(leaps)
>vaesel = regsubsets(y ~ x1+x2+x3+x4,data)
>result = summary(varsel)
>data.frame(result$outmat,adjR2=result$adjr2,Cp-result$cp,BIC=result$bic)

逐步回归分析

当自变量个数较多时，回归模型就会非常的多，有时计算是不可能的，于是就提出了所谓的逐步回归的方法。所谓的逐步回归法就是寻找较优子空间的一种变量选择方法，就是选择变量中的一部分做回归，剔除一些比如高度相关的变量。

而逐步变量选择的方法有3种，即向前引入法、向后剔除法和逐步筛选法，这三种方法用同一个R语言函数即可实现：

fm <- lm(y~ x1+x2+x3+x4,your_data)
fm.step <- step(fm,direction="forward")#向前引入法

顾名思义，若想做另外两种方法，把direction参数换为backward或both即可

多元相关与回归分析及R使用 - part2
4.4 回归变量的选择方法多元回归分析主要用途用于描述解释现象，这时希望回归方程中所包含的自变量尽可能少一些；...
多元相关与回归分析及R使用 - part1
本章为MOOC《多元统计分析与R语言建模》课程的第4章，内容明显比前两章多多了。 4.1变量间的关系分析变量间的...
2020-08-22阅读十分钟收获（坚持第017天）总结中级经济
中级经济基础第26章回归分析回归分析与相关分析的区别和联系回归分析分类为，线性回归和非线性回归一元回归和多元...
判别分析及R使用Part2-距离判别法
这部分笔记是MOOC课程《多元统计分析及R语言建模》第6章第二讲“距离判别分析”。在判别分析及R使用-Part1中...
（未完）主成分分析及R使用Part1-主成分的直观解释
本篇笔记为MOOC《多元统计分析及R语言建模》的第8章“主成分分析及R使用”的第一讲“主成分的直观解释” 主成分分...
Excel 回归分析解析
使用Excel数据分析工具进行多元回归分析与简单的回归估算分析方法基本相同。但是由于有些电脑在安装办公软件时并未加...
回归分析 | R语言 -- 多元线性回归
多元线性回归多元线性回归是简单线性回归[https://www.jianshu.com/p/f8b2a320...
第三天多元线性回归
多元线性回归多元线性回归旨在用现有的数据构建两个或多个因变量与一个因变量之间的相关模型多元线性回归的实现步骤和...
第十五章多元线性回归分析
这一章首先介绍多元线性回归的及其基本统计量，偏回归系数，决定系数R方及adjusted R方，接着对各自变量的作用...
各类统计方法R语言实现（六）
今天是各类统计方法R语言实现的第六期，我们主要介绍多元线性回归、回归诊断。多元线性回归多元线性回归指的是用多个...