60/100 数据相关性分析

作者: 青峰在北京 | 来源:发表于2021-11-04 21:09 被阅读0次

60/100 数据相关性分析
相关性及PCA分析
相关性分析的TIPS
空间组数据和单细胞数据的相关性分析（Seurat）2022-05
Python数据分析 | 数据描述性分析
相关性计算与检验
微生物多样性qiime2分析流程(9) 数据可视化分析(中）之绘
机器学习笔记01——数据EDA(探索性数据分析)入门
统计学-三大相关系数
R相关性分析和相关性热图

2021-11-04

今天有个进行了一个项目的汇报，虽然手里拿着数据，但是没有应用这些数据得到相应的结论，而是从结果想去倒推出来所需要的数据，但这其实并不是一个科学的推理过程，真正的推理过程应该是从已有的数据表，经过数据相关性分析，得到结果，而结果不管是否令人满意，其实都是有说服力的。其中主要原因是自己对数据相关性分析不熟悉，为此，今天专门花时间学习了一下数据相关性分析的相关知识。

一、what 什么是相关性分析？

对两个变量或多个变量之间相关关系的分析，叫做相关性分析。通常用来分析两组或多组数据的变化趋势是否一致。比如身高和体重是否存在关系，天气冷和袜子的销量是否存在关系，客户满意度和客户投诉率是否存在关系等。相关性分析的内容包括：（1）变量之间是否存在关系？有还是无？（2）存在什么样的关系？正向还是负向？（3）关系的强度如何？大还是小？

二、when 什么情况下使用相关性分析？

1）只想分析两个变量之间是否存在相关关系，不需要区分自变量和因变量时可用相关性分析。2）通常在进行回归分析之前，都需要进行相关性分析。

三、How 如何进行相关性分析？

（1）通过计算相关性系数判断（主要是r值），r的取值范围是[-1,1]。

正向和负向关系的判断：若正相关，则r>0；若负相关，则r<0。

关系强度的判断：|r|>0.95：显著性相关；|r|≥0.8：高度相关；0.5≤|r|<0.8：中度相关；0.3≤|r|<0.5：低度相关；|r|<0.3：弱相关。

目前相关性系数主要有Pearson、Spearman和Kendall，Pearson系数：叫皮尔逊相关系数，也叫线性相关系数，用于进行线性相关分析，是最常用的相关系数，当数据满足正态分布时会使用该系数。Spearman系数：当数据不满足正态分布时，使用该系数。Kendall系数：通常用于评分数据一致性水平研究（非关系研究）。

（2）通过绘制折线图或散点图判断

相关性关系的判断可以通过绘制散点图判断（SPSS和Excel均可实现绘制）。若数据点与趋势线基本在一条线上或在这条线的附近，说明存在相关性；若数据点在趋势线周围呈现无规律的分布状态，则说明不存在相关性。

（3）通过计算显著性系数判断（主要是P值）

P值是用来进行显著性检验的，用来检验变量之间是否有差异以及差异是否显著。若P值>0.05代表数据之间不存在显著性差异；若P值<0.05，代表数据之间存在显著性的差异。

（4）如何计算相关性系数和显著性系数？

使用SPSS，分析-->相关-->双变量-->选择相关系数类型，得出以下结果，下图中的相关系数即为r值，Sig即为P值。

使用 Excel函数公式，r值计算公式：CORREL(array1,array2)；PEARSON(array1, array2)。P值计算公式：TTEST(array1,array2,tails,type)。

2021-11-04