谈谈我们都爱用的相关系数

作者: 鹿无为 | 来源:发表于2019-08-28 14:48 被阅读0次

谈谈我们都爱用的相关系数
应用统计学与R语言实现笔记（番外篇三）——缺失值的相关系数分析
R语言相关性的度量
[数学建模第五讲] 皮尔逊相关系数
相关系数
皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用
python note
【简单掌握】不同基因表达间的相关系数计算及作图
朋友圈只是我想给你看到的我
【Excel系列】Excel数据分析：相关与回归分析

当师兄和老师就应该选取哪一个相关系数讨论时，我发现我插不上话。这对于具有话痨体质的我，怎么能忍？为了能在组会上多喷几句，我写下了这篇文章……

image.png

太长不看系列

线性关系使用Pearson相关系数
非线性关系但是单调的采用Spearman相关系数

废话超多系列

变量类型

这一部分可看可不看，时间紧急不用看，顶多影响对本文理解的20%。（ps：推荐蹲坑时看）

离散型变量

名义变量（nominal variable）：这类变量可以有多个水平，或者说多个分类。举个例子，我们看到宾馆，会将它们分为青年旅舍，单身公寓，快捷酒店，民宿等……在这个例子中，宾馆就是变量，我们可以将它分成很多类型

好了，该刹车了，不要根据宾馆继续联想乱七八糟的东西了，回归正题……

image.png

二分变量（Dichotomous variables）：这类变量只能分为两类，比如性别可以分为男女（此处不考虑双性人和变性人等，我真的没有歧视~），惯用手可以分为左手或者右手。当我问你会打篮球么，你的回答只有两个，会或者不会……

会一点点也算会，不要扣这些小细节了。（ps：那些自称只会一点点，但是球场猛如虎的朋友真的让我很绝望啊……）

有序变量/序数变量（Ordinal variables）：我也不知道这个变量类型怎么翻译更合适。这个变量和名义变量类似，只是这个变量的类别可以进行排序。举个例子帮助理解吧，问身边的小伙伴你会打篮球么？他们回答：“会一点”，“还行”，“会”，“当然会”。

连续性变量

区间变量：这种变量的一个特点就是可以连续测量，比如温度，长度，质量……这些变量都是可以连续变化的
比率变量：该变量也是一种区间变量，但是具有绝对零点，可以表示不存在该变量。如我们常说的温度，有华氏温度和开尔文温度。华氏温度的0℃仍然是有温度的，并不表示不存在温度，因此它只是区间变量。而开尔文温度，有一个绝对零度的概念，这个绝对零度表示的是此处没有温度，因此开尔文温度是比率变量

相关系数

相关系数一词经常被滥用，深深困扰着我。只学过浙大统计学教材的我，一直以为相关系数是下面这玩意
$\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}$
后来随着相关性系数的不断应用，我发现怎么还有pearson相关系数，spearman相关性系数……搞科研嘛~，就要严谨认真，于是我就把这些系数的关系好好捋了一遍。

image.png

皮尔逊相关系数

Pearson product-moment correlation coefficient，有时为了简单也写作Pearson correlation coefficient。这是一种评估两个变量之间线性关系强弱的参数，用r来表示。此处划重点，皮尔逊相关系数是描述线性相关关系的，它也是我们最常说的相关系数。

r的值可以取[-1,1]之间，如果r为0，则表示这两个变量之间不存在线性相关。如果r为正数，则表示正相关（即：一个值增大，另一个值跟着增大）。而r为负数，则表示负相关。下面是一个例子：

image.png

从左至右分别是：正相关，负相关，不相关

两个变量之间的线性关系越强，则r的取值越接近1或者-1。当r=±1时，这表示，所有的点都位于拟合的直线上，没有偏离。而r越接近于0，则数据点越偏离拟合线。如下面两图：

image.png

这里需要提一嘴，我们在线性回归分析中，经常使用 $R^{2}$ （决定系数）作为评价拟合好坏的指标，而这个 $R^{2}$ 恰好就等于r的平方。但是， $R^{2}$ 作为一个评价拟合好坏的指标，它不仅可以评估线性拟合，也可以评估非线性拟合。即使是线性的也不一定要用最小二乘法进行拟合。因此准确的来说应该是：在带有截距项的线性最小二乘多元回归中， $R^{2}$ 等于实测值y和拟合值fd的相关系数r的平方。（一定要注意前面这一大堆的限制条件啊……）

回归正题，继续讨论相关系数。那么，有没有什么标准可以判断两个变量的相关性强弱呢？答案是：有

image.png

在使用皮尔逊相关系数分析数据的相关性时，既可以使用区间变量也可以使用比率变量（忘记的同学，记得回头看看前面讲的），甚至一个变量是区间变量，另一个变量是比率变量也是可以的。两个变量的单位也不需要保持一致，比如我想知道身高与体重的相关性。虽然这俩变量单位不同，但是依然可以进行相关性分析。

如果你还记得上面的皮尔逊相关系数的公式的话，你会发现，谁是自变量谁是因变量，对于最终的相关系数的取值没有影响。
$\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(Y-\mu_{Y}\right)\left(X-\mu_{X}\right)\right)}{\sigma_{Y} \sigma_{X}}$

image.png

最后值得注意的一点是，当皮尔逊相关系数r=1时，并不代表拟合线的斜率等于1。r=1时，斜率可以是3，可以是8，可以是其他非0实数。

image.png

Spearman相关系数

知道了皮尔逊相关系数，你会发现它具有局限性，那就是只能分析线性相关的相关系数。那么非线性的怎么办？我们有Spearman相关系数来帮忙

The Spearman's rank-order correlation度量的是两个有序变量关联的方向和强度，通常记作ρ或者 $r_s$ （取值范围也是[-1,1]）。因为度量的是有序变量，因此我们度量的变量类型就只能是有序变量，区间变量或者比率变量。

Spearman相关系数度量的是两个变量之间的单调关系，就是“你增我也增或者你增我就减”的关系。因此如果两个变量之间的关系不是单调的，就触碰到了Spearnman相关系数的盲区了（ps：其实是我的盲区，但我怎么可能承认？）下面的图，可以进一步帮助理解：

image.png

仔细看上面的图，你会发现中间的那个关系是单调的但是并非线性的。

这并不是说非单调的数据，我们不可以使用Spearman相关性系数进行分析，正相反，我们可以利用这一系数来判断两个变量之间的关系是否具有单调性。

有的同学会问，这个系数怎么计算呢？凭啥Pearson有Spearman没有，瞧不起谁呢？为了公平起见，Spearman也必须拥有姓名：

变量未经排序：
$\rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}$
d表示成对秩之间的差，n表示样本数
变量已经排过序
$\rho=\frac{\sum_{i}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i}\left(x_{i}-\overline{x}\right)^{2} \sum_{i}\left(y_{i}-\overline{y}\right)^{2}}}$

具体怎么推导，自己可以动手试试，反正我是懒得动手的

写在最后的话

当我们对数据进行相关性分析时，我们可以使用散点图对数据进行评估。如果是线性的我们就用Pearson相关系数，如果是非线性但单调我们就使用Spearman相关系数。有时候肉眼检查单调性比较费时，我们直接利用Spearman相关系数计算一下相关性即可。

如果你还记得协方差和相关系数之间的关系，可以看一下这里。当两个变量独立时，协方差等于0，不独立时不等于0。既然这样，那为什么不使用协方差判断两个变量间的相关性呢？这是因为协方差缺乏一个度量标准，它的取值并不受限，不像上面那俩一样范围在[-1,1]。因此无法判断，究竟什么值算是相关性较好，什么值属于相关性较差。
此处极力推荐看知乎回答：https://www.zhihu.com/question/20852004/answer/134902061，把协方差和相关系数讲解的通俗易懂

参考文献

相关系数和R方的关系是什么？ - 冯祥的回答 - 知乎 https://www.zhihu.com/question/32021302/answer
https://www.jianshu.com/p/d0085a1e0f26
https://www.cnblogs.com/zhangchaoyang/articles/2631907.html
https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php
https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php
https://statistics.laerd.com/statistical-guides/types-of-variable.php

谈谈我们都爱用的相关系数
当师兄和老师就应该选取哪一个相关系数讨论时，我发现我插不上话。这对于具有话痨体质的我，怎么能忍？为了能在组会上多喷...
应用统计学与R语言实现笔记（番外篇三）——缺失值的相关系数分析
昨天刚好有位同学来咨询R语言里计算相关系数的一些问题，所以来谈谈关于缺失值的相关系数分析问题，主要是在R语言中如何...
R语言相关性的度量
R可以计算多种相关系数，包括pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、...
[数学建模第五讲] 皮尔逊相关系数
皮尔逊相关系数两种最常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。他可以用...
相关系数
定距变量：Pearson相关系数定序变量：Spearman相关系数分类变量：Kendall相关系数
皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用
皮尔森相关系数在所有相关系数的计算方法里面，最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数，是一种...
python note
准备相关系数热图 [x] annot: 是否显示相关系数 [x] fmt: 显示相关系数的格式，例如'.2f'...
【简单掌握】不同基因表达间的相关系数计算及作图
相关系数计算：相关系数、P值相关系数作图补充ggcorrplot 更详细的作图细节可参考：https://ww...
朋友圈只是我想给你看到的我
前段时间一个姐姐来我家住了几天，我们每天晚上都聊很久，我们谈谈生活，谈谈事业，谈谈男朋友…… 聊着聊着，我们都哭了...
【Excel系列】Excel数据分析：相关与回归分析
相关系数 15.1 相关系数的概念著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation c...