当师兄和老师就应该选取哪一个相关系数讨论时,我发现我插不上话。这对于具有话痨体质的我,怎么能忍?为了能在组会上多喷几句,我写下了这篇文章……
image.png
太长不看系列
- 线性关系使用Pearson相关系数
- 非线性关系但是单调的采用Spearman相关系数
废话超多系列
变量类型
这一部分可看可不看,时间紧急不用看,顶多影响对本文理解的20%。(ps:推荐蹲坑时看)
离散型变量
- 名义变量(nominal variable):这类变量可以有多个水平,或者说多个分类。举个例子,我们看到宾馆,会将它们分为青年旅舍,单身公寓,快捷酒店,民宿等……在这个例子中,宾馆就是变量,我们可以将它分成很多类型
好了,该刹车了,不要根据宾馆继续联想乱七八糟的东西了,回归正题……
image.png
- 二分变量(Dichotomous variables):这类变量只能分为两类,比如性别可以分为男女(此处不考虑双性人和变性人等,我真的没有歧视~),惯用手可以分为左手或者右手。当我问你会打篮球么,你的回答只有两个,会或者不会……
会一点点也算会,不要扣这些小细节了。(ps:那些自称只会一点点,但是球场猛如虎的朋友真的让我很绝望啊……)
- 有序变量/序数变量(Ordinal variables):我也不知道这个变量类型怎么翻译更合适。这个变量和名义变量类似,只是这个变量的类别可以进行排序。举个例子帮助理解吧,问身边的小伙伴你会打篮球么?他们回答:“会一点”,“还行”,“会”,“当然会”。
连续性变量
- 区间变量:这种变量的一个特点就是可以连续测量,比如温度,长度,质量……这些变量都是可以连续变化的
- 比率变量:该变量也是一种区间变量,但是具有绝对零点,可以表示不存在该变量。如我们常说的温度,有华氏温度和开尔文温度。华氏温度的0℃仍然是有温度的,并不表示不存在温度,因此它只是区间变量。而开尔文温度,有一个绝对零度的概念,这个绝对零度表示的是此处没有温度,因此开尔文温度是比率变量
相关系数
相关系数一词经常被滥用,深深困扰着我。只学过浙大统计学教材的我,一直以为相关系数是下面这玩意
后来随着相关性系数的不断应用,我发现怎么还有pearson相关系数,spearman相关性系数……搞科研嘛~,就要严谨认真,于是我就把这些系数的关系好好捋了一遍。
皮尔逊相关系数
Pearson product-moment correlation coefficient,有时为了简单也写作Pearson correlation coefficient。这是一种评估两个变量之间线性关系强弱的参数,用r来表示。此处划重点,皮尔逊相关系数是描述线性相关关系的,它也是我们最常说的相关系数。
r的值可以取[-1,1]之间,如果r为0,则表示这两个变量之间不存在线性相关。如果r为正数,则表示正相关(即:一个值增大,另一个值跟着增大)。而r为负数,则表示负相关。下面是一个例子:
image.png
从左至右分别是:正相关,负相关,不相关
两个变量之间的线性关系越强,则r的取值越接近1或者-1。当r=±1时,这表示,所有的点都位于拟合的直线上,没有偏离。而r越接近于0,则数据点越偏离拟合线。如下面两图:
这里需要提一嘴,我们在线性回归分析中,经常使用(决定系数)作为评价拟合好坏的指标,而这个恰好就等于r的平方。但是,作为一个评价拟合好坏的指标,它不仅可以评估线性拟合,也可以评估非线性拟合。即使是线性的也不一定要用最小二乘法进行拟合。因此准确的来说应该是:在带有截距项的线性最小二乘多元回归中,等于实测值y和拟合值fd的相关系数r的平方。(一定要注意前面这一大堆的限制条件啊……)
回归正题,继续讨论相关系数。那么,有没有什么标准可以判断两个变量的相关性强弱呢?答案是:有
image.png
在使用皮尔逊相关系数分析数据的相关性时,既可以使用区间变量也可以使用比率变量(忘记的同学,记得回头看看前面讲的),甚至一个变量是区间变量,另一个变量是比率变量也是可以的。两个变量的单位也不需要保持一致,比如我想知道身高与体重的相关性。虽然这俩变量单位不同,但是依然可以进行相关性分析。
如果你还记得上面的皮尔逊相关系数的公式的话,你会发现,谁是自变量谁是因变量,对于最终的相关系数的取值没有影响。
最后值得注意的一点是,当皮尔逊相关系数r=1时,并不代表拟合线的斜率等于1。r=1时,斜率可以是3,可以是8,可以是其他非0实数。
image.png
Spearman相关系数
知道了皮尔逊相关系数,你会发现它具有局限性,那就是只能分析线性相关的相关系数。那么非线性的怎么办?我们有Spearman相关系数来帮忙
The Spearman's rank-order correlation度量的是两个有序变量关联的方向和强度,通常记作ρ或者(取值范围也是[-1,1])。因为度量的是有序变量,因此我们度量的变量类型就只能是有序变量,区间变量或者比率变量。
Spearman相关系数度量的是两个变量之间的单调关系,就是“你增我也增或者你增我就减”的关系。因此如果两个变量之间的关系不是单调的,就触碰到了Spearnman相关系数的盲区了(ps:其实是我的盲区,但我怎么可能承认?)下面的图,可以进一步帮助理解:
image.png
仔细看上面的图,你会发现中间的那个关系是单调的但是并非线性的。
这并不是说非单调的数据,我们不可以使用Spearman相关性系数进行分析,正相反,我们可以利用这一系数来判断两个变量之间的关系是否具有单调性。
有的同学会问,这个系数怎么计算呢?凭啥Pearson有Spearman没有,瞧不起谁呢?为了公平起见,Spearman也必须拥有姓名:
- 变量未经排序:
d表示成对秩之间的差,n表示样本数 - 变量已经排过序
具体怎么推导,自己可以动手试试,反正我是懒得动手的
写在最后的话
当我们对数据进行相关性分析时,我们可以使用散点图对数据进行评估。如果是线性的我们就用Pearson相关系数,如果是非线性但单调我们就使用Spearman相关系数。有时候肉眼检查单调性比较费时,我们直接利用Spearman相关系数计算一下相关性即可。
如果你还记得协方差和相关系数之间的关系,可以看一下这里。当两个变量独立时,协方差等于0,不独立时不等于0。既然这样,那为什么不使用协方差判断两个变量间的相关性呢?这是因为协方差缺乏一个度量标准,它的取值并不受限,不像上面那俩一样范围在[-1,1]。因此无法判断,究竟什么值算是相关性较好,什么值属于相关性较差。
此处极力推荐看知乎回答:https://www.zhihu.com/question/20852004/answer/134902061,把协方差和相关系数讲解的通俗易懂
参考文献
- 相关系数和R方的关系是什么? - 冯祥的回答 - 知乎 https://www.zhihu.com/question/32021302/answer
- https://www.jianshu.com/p/d0085a1e0f26
- https://www.cnblogs.com/zhangchaoyang/articles/2631907.html
- https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php
- https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php
- https://statistics.laerd.com/statistical-guides/types-of-variable.php
网友评论