统计学（76）-线性回归的应用条件

作者: Zhigang_Han | 来源:发表于2020-04-10 21:14 被阅读0次

统计学（76）-线性回归的应用条件
线性回归、岭回归、Lasso回归、ElasticNet回归
多元线性回归常见问题
逻辑斯谛回归/LR（Logistic Regression）
机器学习之简单的线性回归
统计学习方法之线性回归法
第七章数据预测与估算算法——基于线性回归的估算
ML01-线性回归
python机器学习从入门到精通（第2天）
简单线性回归——置信区间

1、自变量与因变量应该大致呈线性

（1）图1：某研究分析了272名儿童的年龄与白细胞值、胸水蛋白的关系，下图分别绘制了它们的散点图。

图1. 自变量与因变量关系

（2）图2散点图可能无法显示混杂因素的影响，此时更专业的判断线性的方法是绘制偏残差图(Partial Residual Plot) 。偏残差图相当于校正了其他因素以后自变量与因变量的关系，能够更准确地判断自变量与因变量是否为线性关系。

图2. 普通散点图与偏残差图的对比
如果只是绘制x对y的散点图，则显示二者为正向关系；而绘制（校正变量z后的）偏残差图，则显示为负向关系。这说明偏残差图更能准确地提示二者的关系。

2、残差应满足正态分布

第一，绘制残差的直方图或Q-Q图，看其是否满足正态分布。
第二，绘制以因变量预测值为横坐标、以残差为纵坐标的散点图。

3、残差应满足方差齐性

如果总的来说残差并没有随着预测值的增加而增大（或减小），就可以认为其满足方差齐性。

4、残差应满足独立性

（1）基于人群个体的测量数据，其残差大都是满足独立性的。但如果观测数据存在某种自然顺序（如时间顺序），则此时有可能违背这一条件。

数据的散点图和标准化残差图

利用残差图判断是否违背独立性的基本特征是：残差的正或负往往是连续的，如连续几个正的残差，然后连续几个负的残差。在上图中，其残差顺序为“正正负正正正正正负负负正“，可以看出，有点符合这种特征（不过不是很明显，因为数据太少）。
（2）利用残差的正负序列来判断是否独立，其主观性太强，实际中更常用的是DurbinWatson检验。它通过一个统计量d来证明无效假设（相邻误差的相关系数=0) 是否成立。当相关系数=0时，d值接近2; 当相关系数=1时， d 值接近0。因此，Durbin-Watson 检验就是通过d值偏离2的程度来判断是否存在相关性的。