美文网首页
谈谈我们都爱用的相关系数

谈谈我们都爱用的相关系数

作者: 鹿无为 | 来源:发表于2019-08-28 14:48 被阅读0次

    当师兄和老师就应该选取哪一个相关系数讨论时,我发现我插不上话。这对于具有话痨体质的我,怎么能忍?为了能在组会上多喷几句,我写下了这篇文章……


    image.png

    太长不看系列

    • 线性关系使用Pearson相关系数
    • 非线性关系但是单调的采用Spearman相关系数

    废话超多系列

    变量类型

    这一部分可看可不看,时间紧急不用看,顶多影响对本文理解的20%。(ps:推荐蹲坑时看)

    离散型变量
    • 名义变量(nominal variable):这类变量可以有多个水平,或者说多个分类。举个例子,我们看到宾馆,会将它们分为青年旅舍,单身公寓,快捷酒店,民宿等……在这个例子中,宾馆就是变量,我们可以将它分成很多类型

    好了,该刹车了,不要根据宾馆继续联想乱七八糟的东西了,回归正题……


    image.png
    • 二分变量(Dichotomous variables):这类变量只能分为两类,比如性别可以分为男女(此处不考虑双性人和变性人等,我真的没有歧视~),惯用手可以分为左手或者右手。当我问你会打篮球么,你的回答只有两个,会或者不会……

    会一点点也算会,不要扣这些小细节了。(ps:那些自称只会一点点,但是球场猛如虎的朋友真的让我很绝望啊……)

    • 有序变量/序数变量(Ordinal variables):我也不知道这个变量类型怎么翻译更合适。这个变量和名义变量类似,只是这个变量的类别可以进行排序。举个例子帮助理解吧,问身边的小伙伴你会打篮球么?他们回答:“会一点”,“还行”,“会”,“当然会”。
    连续性变量
    • 区间变量:这种变量的一个特点就是可以连续测量,比如温度,长度,质量……这些变量都是可以连续变化的
    • 比率变量:该变量也是一种区间变量,但是具有绝对零点,可以表示不存在该变量。如我们常说的温度,有华氏温度和开尔文温度。华氏温度的0℃仍然是有温度的,并不表示不存在温度,因此它只是区间变量。而开尔文温度,有一个绝对零度的概念,这个绝对零度表示的是此处没有温度,因此开尔文温度是比率变量
    相关系数

    相关系数一词经常被滥用,深深困扰着我。只学过浙大统计学教材的我,一直以为相关系数是下面这玩意
    \rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}
    后来随着相关性系数的不断应用,我发现怎么还有pearson相关系数,spearman相关性系数……搞科研嘛~,就要严谨认真,于是我就把这些系数的关系好好捋了一遍。

    image.png
    皮尔逊相关系数

    Pearson product-moment correlation coefficient,有时为了简单也写作Pearson correlation coefficient。这是一种评估两个变量之间线性关系强弱的参数,用r来表示。此处划重点,皮尔逊相关系数是描述线性相关关系的,它也是我们最常说的相关系数。

    r的值可以取[-1,1]之间,如果r为0,则表示这两个变量之间不存在线性相关。如果r为正数,则表示正相关(即:一个值增大,另一个值跟着增大)。而r为负数,则表示负相关。下面是一个例子:


    image.png

    从左至右分别是:正相关,负相关,不相关

    两个变量之间的线性关系越强,则r的取值越接近1或者-1。当r=±1时,这表示,所有的点都位于拟合的直线上,没有偏离。而r越接近于0,则数据点越偏离拟合线。如下面两图:

    image.png image.png

    这里需要提一嘴,我们在线性回归分析中,经常使用R^{2}(决定系数)作为评价拟合好坏的指标,而这个R^{2}恰好就等于r的平方。但是R^{2}作为一个评价拟合好坏的指标,它不仅可以评估线性拟合,也可以评估非线性拟合。即使是线性的也不一定要用最小二乘法进行拟合。因此准确的来说应该是:在带有截距项的线性最小二乘多元回归中,R^{2}等于实测值y和拟合值fd的相关系数r的平方。(一定要注意前面这一大堆的限制条件啊……)

    回归正题,继续讨论相关系数。那么,有没有什么标准可以判断两个变量的相关性强弱呢?答案是:有


    image.png

    在使用皮尔逊相关系数分析数据的相关性时,既可以使用区间变量也可以使用比率变量(忘记的同学,记得回头看看前面讲的),甚至一个变量是区间变量,另一个变量是比率变量也是可以的。两个变量的单位也不需要保持一致,比如我想知道身高与体重的相关性。虽然这俩变量单位不同,但是依然可以进行相关性分析。

    如果你还记得上面的皮尔逊相关系数的公式的话,你会发现,谁是自变量谁是因变量,对于最终的相关系数的取值没有影响。
    \frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(Y-\mu_{Y}\right)\left(X-\mu_{X}\right)\right)}{\sigma_{Y} \sigma_{X}}

    image.png

    最后值得注意的一点是,当皮尔逊相关系数r=1时,并不代表拟合线的斜率等于1。r=1时,斜率可以是3,可以是8,可以是其他非0实数。


    image.png
    Spearman相关系数

    知道了皮尔逊相关系数,你会发现它具有局限性,那就是只能分析线性相关的相关系数。那么非线性的怎么办?我们有Spearman相关系数来帮忙

    The Spearman's rank-order correlation度量的是两个有序变量关联的方向和强度,通常记作ρ或者r_s(取值范围也是[-1,1])。因为度量的是有序变量,因此我们度量的变量类型就只能是有序变量,区间变量或者比率变量。

    Spearman相关系数度量的是两个变量之间的单调关系,就是“你增我也增或者你增我就减”的关系。因此如果两个变量之间的关系不是单调的,就触碰到了Spearnman相关系数的盲区了(ps:其实是我的盲区,但我怎么可能承认?)下面的图,可以进一步帮助理解:


    image.png

    仔细看上面的图,你会发现中间的那个关系是单调的但是并非线性的。

    这并不是说非单调的数据,我们不可以使用Spearman相关性系数进行分析,正相反,我们可以利用这一系数来判断两个变量之间的关系是否具有单调性。

    有的同学会问,这个系数怎么计算呢?凭啥Pearson有Spearman没有,瞧不起谁呢?为了公平起见,Spearman也必须拥有姓名:

    • 变量未经排序:
      \rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)}
      d表示成对秩之间的差,n表示样本数
    • 变量已经排过序
      \rho=\frac{\sum_{i}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i}\left(x_{i}-\overline{x}\right)^{2} \sum_{i}\left(y_{i}-\overline{y}\right)^{2}}}

    具体怎么推导,自己可以动手试试,反正我是懒得动手的

    写在最后的话

    当我们对数据进行相关性分析时,我们可以使用散点图对数据进行评估。如果是线性的我们就用Pearson相关系数,如果是非线性但单调我们就使用Spearman相关系数。有时候肉眼检查单调性比较费时,我们直接利用Spearman相关系数计算一下相关性即可。

    如果你还记得协方差和相关系数之间的关系,可以看一下这里。当两个变量独立时,协方差等于0,不独立时不等于0。既然这样,那为什么不使用协方差判断两个变量间的相关性呢?这是因为协方差缺乏一个度量标准,它的取值并不受限,不像上面那俩一样范围在[-1,1]。因此无法判断,究竟什么值算是相关性较好,什么值属于相关性较差。
    此处极力推荐看知乎回答:https://www.zhihu.com/question/20852004/answer/134902061,把协方差和相关系数讲解的通俗易懂

    参考文献

    相关文章

      网友评论

          本文标题:谈谈我们都爱用的相关系数

          本文链接:https://www.haomeiwen.com/subject/xuwpectx.html