为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。在二院变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数。
1.Pearson相关系数
一般用于分析两个连续性变量之间的关系,其计算公式如下:
2.Spearman秩相关系数
Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。公式如下:
餐饮销量数据相关性分析
分析资料
#-*- coding: utf-8 -*-
#餐饮销量数据相关性分析
from __future__ import print_function
import pandas as pd
catering_sale = 'G:/PycharmProjects/数据分析与挖掘/catering_sale_all.xls' #餐饮数据,含有其他属性
data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列
data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数
相关系数矩阵,即给出了任意两款菜式之间的相关系数
data.corr()[u'百合酱蒸凤爪'] #只显示“百合酱蒸凤爪”与其他菜式的相关系数
只显示“百合酱蒸凤爪”与其他菜式的相关系数
data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']) #计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数
计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数
网友评论