美文网首页统计
统计学(71)-相关性分析

统计学(71)-相关性分析

作者: Zhigang_Han | 来源:发表于2020-04-02 22:37 被阅读0次
1、方差到协方差,再从协方差到线性相关系数

(1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量,默认没有异常值存在,即偏离平均值较大的数据)

image.png
首先,绘制x和y关系的散点图。不难看出,二者存在一定的相关性,总的来说,随着x的增大, y也随之增
(2)如何来定量描述二者的相关大小呢? image.png
这四个象限图:
image.png
image.png
总结:
如果两个变量呈正相关(y随着x的增大而增大),那么大多数数据应该位于1、3象限中;如果两个变量呈负相关(y随着x的增大而减小),那么大多数数据应该位于2、4象限中;如果两个变量没有什么关系,那么4个象限中的数据应该差不多。
(3)x和y怎样才能称之为正相关呢?
如果1、3象限中的点越多,则越说明x和y可能呈正相关。
(4)怎样从数据中体现出1、3象限中的点呢?
image.png
如果上述公式算出来的,大多数是正数,就说明1、3象限中的点比较多。
(5)怎样数正数的个数呢? image.png

(6)计算方法的劣势
该值与离均差平方和有一个共同的缺点,即数据越多,该值可能越大,不利于不同数据之间的相互比较。
因此,我们将其除以例数,就可以消除例数的影响。最终形成的指标就是协方差(Covariance):


image.png

事实上,协方差跟方差是一回事,如果你把公式中的y都换成x, 就变成了x的方差。因此,方差可以看作协方差的特例,自己对自己的关系就是方差。

2、协方差的劣势

(1)利用协方差比较不同数据之间的相关性大小还存在一个致命问题,那就是度量单位的问题。试想,如果把表1中的x和y各扩大10倍,那么二者的关系并没有发生改变,但协方差值却会增大几百倍。这说明协方差不利于度量单位不同的数据之间的比较。
因此,我们想到了标准化:


image.png

通过标准化,使得不同度量单位的数据均变换为以0为均数、以1为标准差的值,这样就可以直接比较数据大小了。
(2)数据标准化后的协方差


image.png
线性相关系数的计算公式,就不难理解其含义了。其实它就是将协方差与数据标准化结合在一起的一个公式。 image.png
这个公式难道不是标准化后x和y相乘之和吗?是否没有除以自由度?

相关文章

  • 统计学(71)-相关性分析

    1、方差到协方差,再从协方差到线性相关系数 (1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量...

  • R相关性分析和相关性热图

    相关性分析 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析...

  • R语言进行相关性分析

    相关性分析 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析...

  • 使用R语言进行相关性分析热图的绘制

    相关性分析 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析...

  • 六西格玛管理法——日卡(十三)

    P371 阅读笔记: 六西格玛其他的高级工具,如统计学显著性检验、相关性和回归分析、实验设计(DOE)、失效模式与...

  • 相关性及PCA分析

    简要介绍相关性及PCA分析 1、 相关性分析 本次使用数据如下所示: 加载数据 相关性分析 结果如下 2、PCA分...

  • 相关性分析的TIPS

    相关性分析 tips:相关性分析不要局限在数值型数据和数值型数据之间(散点图),还有其他的相关性可供分析: 1.数...

  • 【单细胞转录组 实战】四、复现文章figure——PCA、tSN

    这里是佳奥! 熟悉了两个表达矩阵后,我们开始复现文章的图。 1 平均表达量与相关性散点图 统计学概念: 数据分析流...

  • 统计学方法:相关性分析实战

    相关分析是分析两个变量间相互关系的分析方法,一般用在数据分析比较靠前的探索性数据分析阶段。 相关关系根据其分析方法...

  • 多个基因的相关性如何分析与展示?

    关于批量相关性分析,我们发过两个帖子。单基因批量相关性分析的妙用又是神器!基于单基因批量相关性分析的GSEA 两两...

网友评论

    本文标题:统计学(71)-相关性分析

    本文链接:https://www.haomeiwen.com/subject/jbjfphtx.html