相关系数

作者: 橘猫吃不胖 | 来源:发表于2020-05-09 14:59 被阅读0次

什么是相关系数

相关系数,Correlation coefficient
是描述两个变量之间的相关关系的密切程度,一般用字母r表示

最早由统计学家卡尔·皮尔逊提出,最常用的也是皮尔逊相关系数,下面也主要以皮尔逊相关系数来介绍

皮尔逊相关系数,有些局限性,比如,变量之间一定是线性相关

假设我们知道变量X和变量Y之间是线性相关,但是他们之间相关关系的强弱,就可以使用相关系数来描述


在整理相关系数的时候,有提到相关表和相关图,一起记录下

相关表

相关表,Correlation Table,是一种显示变量之间相关关系的统计表,通常将两个变量对应的值平行排列,且根据其中某一变量按其值大小顺序排列

说的挺高大上,其实就是指标然后排个序嘛,这样子的确可以看出两个指标之间的关系,但还不是很直观,毕竟都是文字,我们还要YY一下,两个指标之间的关系

相关图

其实就是散点图,通过图形的方式,可以直观的看出来数据之间是否有相关关系,是正向的还是反向的,比如上面那个例子的数据:


使用Excel就可以做一个散点图出来,很明显,工龄和日工资之间是有线性关系的,而且是正相关,工龄越长,日工资越高

关于散点图,参考下之前的一篇文章:常见图表-散点图


从相关表->相关图->相关系数,就是我们探索的一个过程,散点图,已经可以告诉我们变量之间有没有线性相关关系,相关系数,可以告诉我们他们之间相关性的强弱是多少。

如何计算相关系数

下面都已皮尔徐相关系数为例

相关系数有一个计算公式:
r(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var[X]·Var[Y]}}

作为一个数学渣渣,这个公式,我是真心看不懂啊,我是花了好久的时间,才搞明白,具体怎么算

其中,Cov(X,Y)表示变量X与Y的协方差;Var[X]表示X的方差;Var[Y]表示Y的方差

相关系数,介于-1和1之间,|r(X,Y)|值越大,相关程度越大,正值,表示正相关,负值表示负相关;
|r(X,Y)| = 0,相关程度最低
通常来说:

  • |r|<0.4为低度线性相关;
  • 0.4≤|r|<0.7为显著性相关;
  • 0.7≤|r|<1为高度线性相关

协方差

协方差,Covariance,用于衡量两个变量 的总体误差

协方差计算公式:
Cov(X,Y) = E(XY) - E(X)E(Y)

若X与Y独立,则Cov(X,Y) = 0

协方差有几个性质:

  • Cov(X,Y) = Cov(Y,X)
  • Cov(aX,bY) = abCov(X,Y) , a,b是常数

这个协方差的计算,也是困惑了我好久才整明白
这个E(X)是什么我一开始都没有搞懂,数学知识都还给老师了啊,哎
这个其实就是期望,也就是平均值
E(X)就是变量X 的平均值
E(Y)就是变量Y 的平均值
E(XY)就是变量X*Y之后的平均值

最后,我们再来看这个协方差计算,其实就简单了

方差

方差,variance/deviation Var,用于衡量随机变量或一组数据的离散程度

方差计算公式:
Var(X) = E[(X - E(X))^2 ]

和上面说的一样 E(X) 就是X的期望,也就是X的平均值
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

相关系数计算实例

好了,知道了协方差和方差的计算,相关系数的计算也就清楚了

例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据

年广告费投入 月均销售额
12.5 21.2
15.3 23.9
23.2 32.9
26.4 34.1
33.5 42.5
34.4 43.2
39.4 49
45.2 52.8
55.4 59.4
60.9 63.5

为了看上述数据的相关性,我们可以先通过散点图来直观的看看是否符合某种规律


恩,看上去是某种线性的关系

我们开始计算相关系数,整体的思路,就是计算根据协方差和方差的计算公式,拆解一下,在Excel中还是很容易计算的

最终的相关系数为: 0.9942,非常趋近于1,所以相关性很强,符合高度线性相关关系

好了,相关系数先到这里,很有很多相关的知识,后面继续补充。

相关文章

网友评论

    本文标题:相关系数

    本文链接:https://www.haomeiwen.com/subject/smomwhtx.html