置信区间
是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。(源自百度百科)
如何理解 95% 置信区间?
关于置信区间,一种普遍的错误理解是:总体待估计参数(比如说均值)以一定的概率落在置信区间内。这种理解的错误在于,总体的待估计参数是确定量而非随机量,而对于确定量来说,其落在某个区间内的概率非0即1.
置信区间和置信水平以及样本量之间的关系
1.在置信水平相同的情况下,样本量越多,置信区间越窄。
2.在样本量一致的情况下,置信水平越高,置信区间越宽。
残差在回归分析中,测定值与按回归方程预测的值之差。
误差是测量测得的量值减去参考量值。
回归分析的五个基本假设
1.线性性 & 可加性
假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。
线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。
可加性:X1对Y的影响是独立于其他自变量(如X2)的。
若事实上变量之间的关系不满足线性性(如含有X21, X31 项),或不满足可加性(如含有X1⋅X2项),则模型将无法很好的描述变量之间的关系,极有可能导致很大的泛化误差(generalization error)
2.误差项(ε)之间应相互独立
若不满足这一特性,我们称模型具有自相关性(Autocorrelation)。
自相关性经常发生于时间序列数据集上,后项会受到前项的影响。当自相关性发生的时候,我们测得的标准差往往会偏小,进而会导致置信区间变窄。
假设没有自相关性的情况下,自变量X的系数为15.02而标准差为2.08。假设同一样本是有自相关性的,测得的标准差可能会只有1.20,所以置信区间也会从(12.94,17.10)缩小到(13.82,16.22)。
3.自变量(X1,X2)之间应相互独立
若不满足这一特性,我们称模型具有多重共线性性(Multicollinearity)。
4.误差项(ε)的方差应为常数
若满足这一特性,我们称模型具有同方差性(Homoskedasticity),若不满足,则为异方差性(Heteroskedasticity)。
异方差性的出现意味着误差项的方差不恒定,这常常出现在有异常值(Outlier)的数据集上,如果使用标准的回归模型,这些异常值的重要性往往被高估。在这种情况下,标准差和置信区间不一定会变大还是变小。
5.误差项(ε)应呈正态分布。
如果误差项不呈正态分布,意味着置信区间会变得很不稳定,我们往往需要重点关注一些异常的点(误差较大但出现频率较高),来得到更好的模型。
假设检验方法
-
线性性 & 可加性
观察残差(Residual)/估计值图。相较于图一(残差随机分布),图二的残差明显呈现了某种二次型趋势,说明回归模型没有抓住数据的某些非线性特征。
为了克服非线性性的影响,我们可以对自变量做一些非线性变换.比如可以使用box-cox变换。 -
自相关性(Autocorrelation)
观察杜宾-瓦特森统计量(Durbin-Watson Statistic)
-
多重共线性性(Multicollinearity)
-
异方差性(Heteroskedasticity)
-
误差项应呈正态分布
方法一:观察Q-Q Plot (quantile-quantile plot)如果误差项满足正态分布,Q-Q Plot里的散点会近似的落在一条直线上。若不满足正态分布,则散点会偏离该直线。
方法二:进行正态检验–如Kolmogorov-Smirnov检验,Shapiro–Wilk检验
box-cox变换
是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。
在这里lambda是个待定变换参数,包括平方根变换(0.5),对数变换(0),倒数变换(-1)
用 Python 检验数据正态分布的几种方法
注:大多数内容转自(仅作为学习)
回归分析的五个基本假设
box-cox变换
置信区间
如何理解 95% 置信区间?
网友评论