美文网首页
60/100 数据相关性分析

60/100 数据相关性分析

作者: 青峰在北京 | 来源:发表于2021-11-04 21:09 被阅读0次

2021-11-04

今天有个进行了一个项目的汇报,虽然手里拿着数据,但是没有应用这些数据得到相应的结论,而是从结果想去倒推出来所需要的数据,但这其实并不是一个科学的推理过程,真正的推理过程应该是从已有的数据表,经过数据相关性分析,得到结果,而结果不管是否令人满意,其实都是有说服力的。其中主要原因是自己对数据相关性分析不熟悉,为此,今天专门花时间学习了一下数据相关性分析的相关知识。

一、what 什么是相关性分析?

对两个变量或多个变量之间相关关系的分析,叫做相关性分析。通常用来分析两组或多组数据的变化趋势是否一致。比如身高和体重是否存在关系,天气冷和袜子的销量是否存在关系,客户满意度和客户投诉率是否存在关系等。相关性分析的内容包括:(1)变量之间是否存在关系?有还是无?(2) 存在什么样的关系?正向还是负向?(3) 关系的强度如何?大还是小?

二、when 什么情况下使用相关性分析?

1)只想分析两个变量之间是否存在相关关系,不需要区分自变量和因变量时可用相关性分析。2)通常在进行回归分析之前,都需要进行相关性分析。

三、How 如何进行相关性分析?

(1) 通过计算相关性系数判断(主要是r值),r的取值范围是[-1,1]。

正向和负向关系的判断:若正相关,则r>0;若负相关,则r<0。

关系强度的判断:|r|>0.95:显著性相关;|r|≥0.8:高度相关;0.5≤|r|<0.8:中度相关;0.3≤|r|<0.5:低度相关;|r|<0.3:弱相关。

目前相关性系数主要有Pearson、Spearman和Kendall,Pearson系数:叫皮尔逊相关系数,也叫线性相关系数,用于进行线性相关分析,是最常用的相关系数,当数据满足正态分布时会使用该系数。Spearman系数:当数据不满足正态分布时,使用该系数。Kendall系数:通常用于评分数据一致性水平研究(非关系研究)。

(2)通过绘制折线图或散点图判断

相关性关系的判断可以通过绘制散点图判断(SPSS和Excel均可实现绘制)。若数据点与趋势线基本在一条线上或在这条线的附近,说明存在相关性;若数据点在趋势线周围呈现无规律的分布状态,则说明不存在相关性。

(3)通过计算显著性系数判断(主要是P值)

P值是用来进行显著性检验的,用来检验变量之间是否有差异以及差异是否显著。若P值>0.05代表数据之间不存在显著性差异;若P值<0.05,代表数据之间存在显著性的差异。

(4) 如何计算相关性系数和显著性系数?

使用SPSS,分析-->相关-->双变量-->选择相关系数类型,得出以下结果,下图中的相关系数即为r值,Sig即为P值。

使用 Excel函数公式,r值计算公式:CORREL(array1,array2);PEARSON(array1, array2)。P值计算公式:TTEST(array1,array2,tails,type)。

2021-11-04

相关文章

网友评论

      本文标题:60/100 数据相关性分析

      本文链接:https://www.haomeiwen.com/subject/meakzltx.html