美文网首页
如何证明 Pearson 相关系数的值域为 -1 到 1

如何证明 Pearson 相关系数的值域为 -1 到 1

作者: 刘思宁 | 来源:发表于2018-06-07 20:30 被阅读108次

    Pearson 相关系数是一个用来度量2个变量间线性关系强度的统计量。这听起来有点绕,但用图形解释会很直观:

    图中的 ρ 即为 Pearson 相关系数。这张图表示计算得到的 Pearson 相关系数的不同情况。

    (在二维坐标下)2个变量形成一个点,这些点是否大致沿着一条直线发展。如果正好在一条直线上,那么相关系数是1,或者-1。

    但问题来了,为什么是 1 或 -1 ?更进一步,为什么各种地方都说 Pearson 相关系数的值域是[-1, 1] ?我搜索了一些地方,但是没有直接的证明,所以看看能不能自己填补一下这个。

    根据国内某教材给出的计算公式[1],我完全看不出来为什么:

    如果我是当年还在上学的我,觉得考试能得分就行了,顶多就把公式背下来,恶劣一点还会想办法不用背下来。但今天,学习是为了解决问题,不多理解一点这个公司在现实中的因果(而不是在分数上的因果),不太敢拿来解决问题[2]

    其实,Pearson 相关系数更本质的计算方法是,变量1的各个数据点到平均数的距离(以标准方差为一个距离单位,下同)乘以变量2对应的数据点到平均数的距离,的平均值。或者说,就是变量1的各个数据点的 P 值,乘以变量2对应的数据点 P 值,的平均值。

    写成表达式,就是:

    最后得到的表达式意味着啥?

    假设我们有两个向量,一个向量是:

    另一个向量是:

    再想想向量的点乘是什么:

    这样,表达式的分子就是 x.y

    而分母是||x|| . ||y||

    x.y / ||x|| . ||y|| 也就是 cosø,cosø 的值域是 [-1, 1]。

    关键词

    Pearson’s r, Pearson coefficient correlation, range, prove, 线性相关系数,皮尔逊相关系数,值域,证明,


    1. 《统计学》 贾俊平 中国人民大学出版社

    2. 虽然有时候还是先用再说

    相关文章

      网友评论

          本文标题:如何证明 Pearson 相关系数的值域为 -1 到 1

          本文链接:https://www.haomeiwen.com/subject/xfsnsftx.html