探序基因肿瘤研究院整理,探序基因数学工作室整理
回归的目的:回归分析能估计两个或者多个变量之间的关系。例如,揭示了因变量和自变量之间的显著关系,揭示了多个自变量对一个因变量的影响程度大小。
探究研究变量和影响因素之间的关系、评估改变一个因素之后的影响
探索检验
假设进行预测
案例:
1. 根据当前的经济状况来估计一家公司的销售额增长。你有最近的公司数据,数据表明销售增长大约是经济增长的 2.5 倍。利用这种洞察力,我们就可以根据当前和过去的信息预测公司未来的销售情况。
2. 价格变化的影响和促销活动的数量的影响
3. 通过自变量(房间面积、楼层高度、房子单价、是否有电梯、周围学校数量、距地铁站位置)拟合预测因变量(房价),现在发现房子单价与楼层高度之间有着很强的共线性,VIF值高于20;不能使用常见的最小二乘法OLS回归分析,需要使用岭回归模型。
4. 现测得胎儿身高、头围、体重和胎儿受精周龄数据,希望建立胎儿身高、头围、体重去和胎儿受精周龄间的回归模型。根据医学常识情况(同时结合普通线性最小二乘法OLS回归测量),发现三个自变量之间有着很强的共线性,VIF值高于200;可知胎儿身高、体重之间肯定有着很强的正相关关系,因而使用岭回归模型。
表3为岭回归分析结果,根据分析结果可知,模型公式为:胎儿受精周龄=9.994 + 0.430*身长(cm)-0.284*头围(cm) + 0.007*体重(g)。身长、体重通过显著性检验(P<0.05)说明对胎儿受精周龄有影响关系。
总结分析可知:身长(cm),体重(g)会对胎儿受精周龄产生显著的正向影响关系。但是头围(cm)并不会对胎儿受精周龄产生影响关系。
参考:简书-岭回归分析
5. 一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5是该银行所属25家分行2002年的有关业务数据。
(1)计算y与其余4个变量的简单相关系数。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?
(3)分析回归模型的共线性。
(4)采用后退法和逐步回归法选择变量,所得的回归方程的回归系数是否合理,是否还存在共线性?
(5)建立不良贷款y对4个变量的岭回归。
(6)对(4)步剔除变量后的回归方程再做岭回归。
(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?
https://blog.csdn.net/princessyang/article/details/110725575
6. 互联网经济对中国经济增长影响。准备数据:Y:国民生产总值、K:固定资产投资;L:年期末就业人数;A:互联网综合发展水平数据处理:为了模型的稳定性与计算的简易性,分别对两端取对数,变成线性关系,得到最终模型:lnY=γlnA+αlnL+βlnk
7. 在交通上,比如安装测速仪真的能够提高安全性吗?
- 由于交通事故的发生很多时候是取决于车辆速度差,并非速度,安装测速仪也可能导致事故增加;
- 可能由于安装测速仪造成了其他更重要因素的改变,从而直接说安装测速仪提高安全性并不准确;
- 安装测速仪还可能导致车辆绕行,交通事故迁移,单纯比较一个地点的交通事故数量是没有意义的。
此时我们就需要回归分析的方法来帮我们探究这些因素之间的关系
知乎-回归分析基础(模型的选择、变量的处理与选择、变量间相关性)
8. 探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
9. 大家在接触的时候都知道我们是为了研究某几个自变量,对一个因变量造成的影响情况。这一些原因是否真的会导致这个结果?还有,这些原因出现时,会造成结果出现的机率是多少。比如说我们吃的越多长得越胖,那么进食量就是原因,体重就是结果。那么我们为了研究进食量对体重的影响情况,我们就会选择回归分析。只要是涉及到谁对谁的影响情况,我们通通选择的都是回归分析。
10. 某银行从历史贷款客户中随机抽取16个样本,根据设计的指标体系分别计算他们的“商业信用支持度”()和“市场竞争地位等级”(),类别变量G中,1代表贷款成功,2代表贷款失败。
参考:51CTO-R语言有序多分类逻辑回归方程 r语言多元logistic回归
11.
回归模型建立步骤:
找到尽可能多的可能性——找到对 y 产生影响的所有变量 x;
构建模型——对自变量 x(x可以有多种)进行选择,选择 x 的不同组合;
估计模型参数——通过拥有的数据对模型进行拟合,得到完整的模型;
检测模型效果——拟合优度(R^2)检测,或者进行预测,用预测结果进行效果检验(如果效果不行,回到第2步重新构建模型)
知乎-回归分析基础(模型的选择、变量的处理与选择、变量间相关性)
变量的特殊处理:
由于回归模型是对数值进行回归,最终的模型是计算出具体的数值,因此非数值的变量(名义变量,例如:变量交通方式:汽车、公交车、高铁)不能直接放入模型中,要先进行转换(转换为:汽车=0,公交车=1,高铁=2)才可以。
但单纯的转化为数字还是不行,因为转化后的数值没有大小关系,即我可以设置汽车=0,公交车=1,高铁=2,同样我也可以设置汽车=2,公交车=1,高铁=0。因此还要接着进行处理,将一个变量交通工具,转化为三个变量:是否乘坐汽车(0否、1是)、是否乘坐公交车、是否乘坐高铁。
此时,如果将这三个变量一并放入模型中吗,则会出现共线性错误。其实,如果是否乘坐汽车与是否乘坐公交车两个变量都取0,那么表示该条数据一定表示的是乘坐高铁,因此只需要放入任意两个变量,便可以表示出交通工具的所有信息。故转化为哑元变量后,一定不能全放入模型,最多放入n-1个。
以上就是转化为哑元变量的过程,具体代码实现将在后续单个模型介绍中一起展示。
当然需要转换为哑元变量的情况不止上面一种,总结需要转换为哑元变量的情况如下 :
对于无序多分类:需要转换;对于有序多分类:酌情考虑,但最好都要转换——因为等间距可能不合理,例如成绩排名,是否是第一名与是否是第二名对因变量 y 取值的影响程度有所不同,此时就需要哑元处理;对于连续变量、计数变量:也可以考虑转换为名义变量然后再转换为哑元变量;例如年龄,为了探究不同年龄段对因变量 y 的影响差异,可以按年龄段进行划分,分为有序名义变量(10~19=1、20~29=2……)之后再转换为哑元变量进行回归分析。
参考:
知乎-回归分析基础(模型的选择、变量的处理与选择、变量间相关性)
理论:
使用详解:
数据分析中常见的七种回归分析以及R语言实现(三)---岭回归
回归对比:
从目标函数可以看出,岭回归,Lasso回归都是在OLS的基础上产生的,这样看来,OLS似乎已经可以解决所有线性回归的问题了,什么还会出现岭回归,Lasso回归等模型呢?其实是因为OLS会随着特征维度的增加,模型求得的参数 w 0 , w 1 , w 2 , . . , w n w_0,w_1,w_2,..,w_n w0,w1,w2,..,wn的值也会显著的增加。产生这个现象的原因是OLS试图最小化公式 arg min ( ∑ ( y 1 − y ) 2 ) \argmin(\sum(y_1-y)^2) argmin(∑(y1−y)2)的值,因此为了拟合训练数据中很小的x值差异产生较大的y值差异,这样就必须要使用较大的w值。而越来越大的w值在测试数据上的反映的结果则是任何一个特征微小的变化都会导致最终的预测目标值大幅度变化,产生过度拟合现象。为了面对OLS在高维度数据训练存在过拟合现象,所以引入了加入惩罚项的岭回归,Lasso回归等模型。岭回归相比OLS在高维特征训练的结果来看,模型参数w的值会显著降低,并且 α \alpha α参数的大小与训练结果的回归参数呈反向关系: α \alpha α越大,回归参数越小,模型越平缓。但是在岭回归模型中,无论将 α \alpha α设多大,回归模型参数都只有非常小的绝对值,达不到零值。这样就造成了一个结果,可能有很多特征对最终预测结果的影响不大,但还是得将其加入模型计算中,这样会对数据的产生,存储,传输,计算等产生较大的浪费。Lasso就解决了岭回归的这样一个问题,Lasso回归可以将一个或多个不重要的特征参数值计算为零。从而减少特征参数,达到了压缩相关特征的目的。下面我们实践来看下这些差异。
https://blog.csdn.net/weixin_47166032/article/details/119055092
网友评论