美文网首页
相关与回归分析-(数值自变量与数值因变量的关系)

相关与回归分析-(数值自变量与数值因变量的关系)

作者: echolvan | 来源:发表于2020-09-08 17:38 被阅读0次

相关分析

相关要解决的问题

1) 变量是否存在关系?
2) 如果存在关系,那是存在的什么关系???
3) 有关系的话,它的关系强度是多少???
4) 是否可以用样本反映的变量上关系来代表总体上变量的关系???

  1. 首先绘制散点图判断变量之间的关系形态
  2. 如果是线性关系,则可以利用相关系数来测度两个变量的关系强度
  3. 然后对相关系数进行显著性检验,判断样本所反映的关系是否可以代表两个变量总体上的关系。

画散点图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

sns.set(style='darkgrid')
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
warnings.filterwarnings('ignore')

# 用searborn画特征与特征之间的散点图
sns.pairplot(data[['AQI', 'PopulationDensity', 'GreenCoverageRate']])

计算相关系数

相关系数的计算公式是pearson相关系数


image.png
# 我们可以手写,其中data是我的pandas DataFrame数据,比如我想知道AQI空气质量指数与降雨的相关系数'Precipitation

x = data['AQI']
y = data['Precipitation']
# 计算AQI与Precipitation的协方差
a = (x - x.mean())*(y - y.mean())
cov = np.sum(a)/(len(a)-1)
print('协方差:', cov)
# 计算AQI与Precipitation的相关系数
corr = cov / np.sqrt(x.var()*y.var())
print('相关系数:',corr)

# 也可以直接一步用numpy里函数算出
print('covarience:', x.cov(y))
print('corrlation:', x.corr(y))

# 甚至可以直接使用dataframe里的corr函数
data.corr()

#为了直观我们可以用热力图看相关性的强度
plt.figure(figsize=(15,10))
ax = sns.heatmap(data.corr(), cmap=plt.cm.RdYlGn, annot=True, fmt='.2f')

可以根据经验将相关程度分为几种情况:
这里我用abs(r)代表相关系数的绝对值

相关度r 相关程度
abs(r)>=0.8 高度相关
0.5<=abs(r)<0.8 中度相关
0.3<=abs(r)<0.5 低度相关
abs(r)<0.3 相关性超级弱可视为不相关

相关系数的显著性检验

对r的正态性假设是具有很大风险的,因此通常不采用正态检验,而采用t检验,这个可以用于小样本也可以大样本。

检验步骤

  • 提出假设 H0:ρ = 0; H1:ρ不为0
scipy.stats.pearsonr(x, y)
scipy.stats.spearmanr(x, y)

scipy.stats.kendalltau(x, y)

相关文章

  • 一元线性回归

    对于分类型自变量与数值型因变量之间的关系,我们可以通过方差分析来研究;而对于数值型自变量和数值型因变量之间的关系,...

  • 相关与回归分析-(数值自变量与数值因变量的关系)

    相关分析 相关要解决的问题 1) 变量是否存在关系?2) 如果存在关系,那是存在的什么关系???3) 有关系的话,...

  • 基于EXCEL的一元线性回归案例:广告与销量

    一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一个经济指标的数值往往受许多因素影响,若...

  • Python学习笔记-3群18组-杜杜狼-2017.8.11

    Lesson 16 回归分析 Regression Analysis: 研究自变量与因变量之间关系形式的分析方法,...

  • 【机器学习与R语言】6-线性回归

    1.理解回归 确定一个唯一的因变量(需预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。 回归分析对数据...

  • 回归分析

    知识点普及 回归分析:研究自变量与因变量之间的关系形式的分析方法,主要是通过建立自变量y和影响他的自变量Xi(i=...

  • 相关系数与回归系数

    在一元线性回归中,自变量的标准回归系数与自变量和因变量之间的相关系数是一样的。但在多元线性回归中,由于自变量间通常...

  • 方差分析(analysis of variance)基本概念

    一、基本概念 方差分析(analysis of variance)用于研究一个或多个分类型自变量与一个数值型因变量...

  • 统计学-方差分析

    方差分析用于研究一个或多个分类型自变量与一个数值型因变量的关系。方差分析通过检验多个总体的均值是否相等来判断一个或...

  • 什么是回归?

    (Wang, 2011) 回归分析建立了检验因变量与一个或多个自变量之间关系的数学模型。 这些模型可用于预测自变量...

网友评论

      本文标题:相关与回归分析-(数值自变量与数值因变量的关系)

      本文链接:https://www.haomeiwen.com/subject/zedjektx.html