Pearson 相关系数是一个用来度量2个变量间线性关系强度的统计量。这听起来有点绕,但用图形解释会很直观:
![](https://img.haomeiwen.com/i1269937/6cc0bdf739f41bc4.png)
(在二维坐标下)2个变量形成一个点,这些点是否大致沿着一条直线发展。如果正好在一条直线上,那么相关系数是1,或者-1。
但问题来了,为什么是 1 或 -1 ?更进一步,为什么各种地方都说 Pearson 相关系数的值域是[-1, 1] ?我搜索了一些地方,但是没有直接的证明,所以看看能不能自己填补一下这个。
根据国内某教材给出的计算公式[1],我完全看不出来为什么:
![](https://img.haomeiwen.com/i1269937/a6ed0517ef9d422f.jpg)
如果我是当年还在上学的我,觉得考试能得分就行了,顶多就把公式背下来,恶劣一点还会想办法不用背下来。但今天,学习是为了解决问题,不多理解一点这个公司在现实中的因果(而不是在分数上的因果),不太敢拿来解决问题[2]。
其实,Pearson 相关系数更本质的计算方法是,变量1的各个数据点到平均数的距离(以标准方差为一个距离单位,下同)乘以变量2对应的数据点到平均数的距离,的平均值。或者说,就是变量1的各个数据点的 P 值,乘以变量2对应的数据点 P 值,的平均值。
写成表达式,就是:
![](https://img.haomeiwen.com/i1269937/3839143c813f93ff.jpg)
最后得到的表达式意味着啥?
假设我们有两个向量,一个向量是:
![](https://img.haomeiwen.com/i1269937/7fb27ddc71221b1c.jpg)
另一个向量是:
![](https://img.haomeiwen.com/i1269937/f2b4978d1fefb729.jpg)
再想想向量的点乘是什么:
![](https://img.haomeiwen.com/i1269937/d27f26c3ef2791b6.png)
这样,表达式的分子就是 x.y
而分母是||x|| . ||y||
x.y / ||x|| . ||y|| 也就是 cosø,cosø 的值域是 [-1, 1]。
关键词
Pearson’s r, Pearson coefficient correlation, range, prove, 线性相关系数,皮尔逊相关系数,值域,证明,
网友评论