美文网首页统计
统计学(71)-相关性分析

统计学(71)-相关性分析

作者: Zhigang_Han | 来源:发表于2020-04-02 22:37 被阅读0次
    1、方差到协方差,再从协方差到线性相关系数

    (1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量,默认没有异常值存在,即偏离平均值较大的数据)

    image.png
    首先,绘制x和y关系的散点图。不难看出,二者存在一定的相关性,总的来说,随着x的增大, y也随之增
    (2)如何来定量描述二者的相关大小呢? image.png
    这四个象限图:
    image.png
    image.png
    总结:
    如果两个变量呈正相关(y随着x的增大而增大),那么大多数数据应该位于1、3象限中;如果两个变量呈负相关(y随着x的增大而减小),那么大多数数据应该位于2、4象限中;如果两个变量没有什么关系,那么4个象限中的数据应该差不多。
    (3)x和y怎样才能称之为正相关呢?
    如果1、3象限中的点越多,则越说明x和y可能呈正相关。
    (4)怎样从数据中体现出1、3象限中的点呢?
    image.png
    如果上述公式算出来的,大多数是正数,就说明1、3象限中的点比较多。
    (5)怎样数正数的个数呢? image.png

    (6)计算方法的劣势
    该值与离均差平方和有一个共同的缺点,即数据越多,该值可能越大,不利于不同数据之间的相互比较。
    因此,我们将其除以例数,就可以消除例数的影响。最终形成的指标就是协方差(Covariance):


    image.png

    事实上,协方差跟方差是一回事,如果你把公式中的y都换成x, 就变成了x的方差。因此,方差可以看作协方差的特例,自己对自己的关系就是方差。

    2、协方差的劣势

    (1)利用协方差比较不同数据之间的相关性大小还存在一个致命问题,那就是度量单位的问题。试想,如果把表1中的x和y各扩大10倍,那么二者的关系并没有发生改变,但协方差值却会增大几百倍。这说明协方差不利于度量单位不同的数据之间的比较。
    因此,我们想到了标准化:


    image.png

    通过标准化,使得不同度量单位的数据均变换为以0为均数、以1为标准差的值,这样就可以直接比较数据大小了。
    (2)数据标准化后的协方差


    image.png
    线性相关系数的计算公式,就不难理解其含义了。其实它就是将协方差与数据标准化结合在一起的一个公式。 image.png
    这个公式难道不是标准化后x和y相乘之和吗?是否没有除以自由度?

    相关文章

      网友评论

        本文标题:统计学(71)-相关性分析

        本文链接:https://www.haomeiwen.com/subject/jbjfphtx.html