什么是相关系数
相关系数,Correlation coefficient
是描述两个变量之间的相关关系的密切程度,一般用字母r
表示
最早由统计学家卡尔·皮尔逊提出,最常用的也是皮尔逊相关系数
,下面也主要以皮尔逊相关系数
来介绍
皮尔逊相关系数,有些局限性,比如,变量之间一定是线性相关
假设我们知道变量X和变量Y之间是线性相关,但是他们之间相关关系的强弱,就可以使用相关系数来描述
在整理相关系数的时候,有提到相关表和相关图,一起记录下
相关表
相关表,Correlation Table,是一种显示变量之间相关关系的统计表,通常将两个变量对应的值平行排列,且根据其中某一变量按其值大小顺序排列
![](https://img.haomeiwen.com/i76024/d4a2b9cb4e7521aa.png)
说的挺高大上,其实就是指标然后排个序嘛,这样子的确可以看出两个指标之间的关系,但还不是很直观,毕竟都是文字,我们还要YY一下,两个指标之间的关系
相关图
其实就是散点图,通过图形的方式,可以直观的看出来数据之间是否有相关关系,是正向的还是反向的,比如上面那个例子的数据:
![](https://img.haomeiwen.com/i76024/ee0bcdbf23a4920f.png)
使用Excel就可以做一个散点图出来,很明显,工龄和日工资之间是有线性关系的,而且是正相关,工龄越长,日工资越高
关于散点图,参考下之前的一篇文章:常见图表-散点图
从相关表->相关图->相关系数,就是我们探索的一个过程,散点图,已经可以告诉我们变量之间有没有线性相关关系,相关系数,可以告诉我们他们之间相关性的强弱是多少。
如何计算相关系数
下面都已皮尔徐相关系数为例
相关系数有一个计算公式:
作为一个数学渣渣,这个公式,我是真心看不懂啊,我是花了好久的时间,才搞明白,具体怎么算
其中,表示变量X与Y的协方差;
表示X的方差;
表示Y的方差
相关系数,介于-1和1之间,值越大,相关程度越大,正值,表示正相关,负值表示负相关;
,相关程度最低
通常来说:
- |r|<0.4为低度线性相关;
- 0.4≤|r|<0.7为显著性相关;
- 0.7≤|r|<1为高度线性相关
协方差
协方差,Covariance,用于衡量两个变量 的总体误差
协方差计算公式:
若X与Y独立,则
协方差有几个性质:
这个协方差的计算,也是困惑了我好久才整明白
这个是什么我一开始都没有搞懂,数学知识都还给老师了啊,哎
这个其实就是期望,也就是平均值
就是变量X 的平均值
就是变量Y 的平均值
就是变量X*Y之后的平均值
最后,我们再来看这个协方差计算,其实就简单了
方差
方差,variance/deviation Var,用于衡量随机变量或一组数据的离散程度
方差计算公式:
和上面说的一样 就是X的期望,也就是X的平均值
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
相关系数计算实例
好了,知道了协方差和方差的计算,相关系数的计算也就清楚了
例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据
年广告费投入 | 月均销售额 |
---|---|
12.5 | 21.2 |
15.3 | 23.9 |
23.2 | 32.9 |
26.4 | 34.1 |
33.5 | 42.5 |
34.4 | 43.2 |
39.4 | 49 |
45.2 | 52.8 |
55.4 | 59.4 |
60.9 | 63.5 |
为了看上述数据的相关性,我们可以先通过散点图来直观的看看是否符合某种规律
![](https://img.haomeiwen.com/i76024/afb6708d566400f4.png)
恩,看上去是某种线性的关系
我们开始计算相关系数,整体的思路,就是计算根据协方差和方差的计算公式,拆解一下,在Excel中还是很容易计算的
![](https://img.haomeiwen.com/i76024/7550047a7c99ec85.png)
最终的相关系数为: 0.9942,非常趋近于1,所以相关性很强,符合高度线性相关关系
好了,相关系数先到这里,很有很多相关的知识,后面继续补充。
网友评论