从某种意义上说,世间万物存在千丝万缕的关系。在数据分析中,两变量间的关系包括确定性关系(即函数关系)和非确定性关系。
非确定性关系指两个变量宏观上存在关系,但不能用具体的函数关系来表示,这种既是必然的又是不确定的关系称为相关关系。相关关系进一步分为平行关系(两变量互相影响)和依存关系(一个影响另一个)。
两个连续随机变量之间的线性联系称为线性相关(linear correlation),亦称为简单相关,联系强度用相关系数来描述。Pearson相关性分析是分析两变量间线性相关最常的方法。
1.Pearson相关性分析,需要满足以下5个条件:
(1)两变量均为连续变量。
(2)两变量应当是配对的,即来源于同一个个体。
(3)两变量之间存在线性关系。
(4)两变量没有明显的异常值。
(5)两变量呈双变量正态分布或近似正态分布。
2.Pearson积矩相关系数
Pearson相关系数,又称积差相关系数。定义为两个变量之间的协方差和标准差之积的商(又称为归一化的协方差)。总体的相关系数用ρ表示,样本的相关系数用r表示。
从总体相关系数和样本相关系数的计算公式都可以看出:
(1)分母为两变量标准差的乘积,只可能为正数。
(2)分子为两变量的协方差,表示两个变量的观测值对均值的偏离构成的向量的内积。
a.当X的离均差和Y的离均差均为正数或者均为负数时,说明X和Y有同时增加或者同时减少的倾向,乘积为正,称 𝑋 与 𝑌正相关;
b.当X的离均差和Y的离均差一正一负时,说明有X增加Y减少或者X减少Y增加的倾向,乘积为负数,称 𝑋 与 𝑌负相关。
c.特别地,若X和Y部分取值同方向部分取值反方向,离均差乘积有正有负,加和就接近于0,即这时候X和Y呈无序变化,称 𝑋 与 𝑌不相关,严格来说是无线性相关关系。
(3)根据柯西-施瓦尔兹不等式(Cauchy–Schwarz inequality):
可知-1≤ρ≤1,ρ越靠近-1或1,线性相关程度越强,越接近于0,越弱。
此外,因为分子协方差的量纲除以了分母、分子相同的量纲,所以Pearson相关系数是没有单位的,而且具有对称性、位移不变性和尺度不变性。
3.Pearson相关系数的假设检验
通常我们分析的数据是来自总体的样本,所得到的r只是ρ的一个估计值,也有抽样误差,因此还要进一步作总体相关系数ρ是否为0的假设检验。即:
H0:ρ=0,H1:ρ≠0,α=0.05
来自 𝜌=0 的总体的所有样本相关系数 𝑟 是呈对称分布的,所以r的显著性检验可以用双侧t检验来进行。
直接查t分布表即可获得P值。
需要注意的是,相关系数的显著性是与自由度 (𝑛−2) 有关,即与样本数量 𝑛 有关。样本量小,r绝对值容易接近于 1 ,样本量大,r绝对值容易偏小,容易给人一种假象,但样本少,即使r很大,但会发现是没有显著性的,相反,样本量很大时,即使r=0.1,也是有显著性的。
4.Pearson相关系数的区间估计
在实际分析时,我们往往想得到总体相关系数以一定概率所在的大致范围,即ρ的置信区间。
由于-1≤ρ≤1,不服从正态分布,在估计置信区间前需要先进行转换,如对数转换:
此时-∞<z<+∞,z近似服从正态分布,则z的1-α置信区间为:
然后再作反变换即可得到总体相关系数ρ的置信区间:
关于相关性的强弱没有固定的界限,不同的参考书定义不同,但更应该关注样本量是否足够大。
在很多学位论文和期刊论文中,经常能看到Pearson相关分析的误用和滥用,即使不能满足必须的5个条件,也盲目应用Pearson相关分析,这是不可取的。
在结果阐述部分特别需要注意的是:
(1)r=0只能说明两变量无线性相关关系,并不表示两者无相关性,可通过散点图初步判断。
(2)Pearson相关分析只探讨两变量具有线性相关性,不能得出因果关系。
(3)Pearson相关分析与Spearman相关分析的区别。
(4)Pearson相关分析和线性回归分析的联系和区别。
网友评论