计算连续数据间的相关性
一、pearson
Pearson相关系数(Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
求解相关系数,整个计算过程与向量夹角余弦公式差不多。对于pearson相关系数的计算来说,只不过要在计算前将每组数据减去其均值。
值域等级解释
相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
二、spearman
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示:
变量Xi降序位置等级xi
0.855
1.24
1.23
2.322
1811
实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为
三、kendall
Kendall(肯德尔)系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。
属性:
1)如果两个属性排名是相同的,系数为1 ,两个属性正相关。
2)如果两个属性排名完全相反,系数为-1 ,两个属性负相关。
3)如果排名是完全独立的,系数为0。
举例:
假如我们设一组8人的身高和体重在那里A的人是最高的,第三重,等等:
Person A B C D E F G H
Rank by Height 12345678
Rank by Weight 34125786
我们看到,有一些相关的两个排名之间的相关性,可以使用肯德尔头系数,客观地衡量对应。
注意,A最高,但体重排名为 3 ,比体重排名为 4,5,6,7,8 的重,贡献5个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,
P= 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.
因而R=(88/56)-1=0.57。这一结果显示出强大的排名之间的规律,符合预期。
网友评论