特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。
-
数据介绍
数据来源:Kaggle,red-wine-quality-cortez-et-al-2009.zip
数据指标:酸度、甜度等成分指标为连续性变量,质量为离散变量(由多个专家给出的品质等级0~10)
{'fixed acidity': '固定酸',
'volatile acidity': '挥发性酸',
'citric acid': '柠檬酸',
'residual sugar': '残留糖分',
'chlorides': '氯化物',
'free sulfur dioxide': '游离二氧化硫',
'total sulfur dioxide': '总二氧化硫',
'density': '浓厚度',
'pH': '氢离子浓度',
'sulphates': '硫酸盐',
'alcohol': '酒精度',
'quality': '质量'}
-
数据转换
先看一下前十行数据source_data.head(10)
将字段转换成中文source_data.rename(columns=col_map, inplace=True)
快速进行描述性统计source_data.describe()
-
图例展示
数据分布情况sns.distplot(source_data['质量'], color="k",bins=6,kde= False,fit=norm)
数据为正态分布
各指标行列转换, 热图展示
# 皮尔森相关系数 前提是要数据正态分布
# abs(r) < 0.3 不相关
# 0 <= abs(r) <= 0.3 低相关
# 0.3 < abs(r) <= 0.8 中相关
# 0.8 < abs(r) <= 1 高相关
hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)
mask = np.zeros_like(hq_data_corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(hq_data_corr,
cmap= 'RdYlGn_r',
linewidths = 0.05,
mask = mask,
alpha = 0.95,
annot = True,
center=0,
fmt = '.2f',
vmin = -1,
vmax = 1)
其中大红色为正相关系数,绿色为负相关性系数,颜色越深表面相关性越高
以各等级红酒分类,并相关性图例展示
sns.pairplot(hq_data
,vars = temp_cols
,kind="reg" # 回归线
,diag_kind="kde" # 对角分布
,hue="quality"
,palette='mako',
)
-
最后总结
1、市场质量特别好的红酒和质量特比差的红酒数量都相对较少,更多的是质量中等的红酒。不同质量的红酒基本满足正态分布。
2、红葡萄酒的柠檬酸与固定酸和挥发性酸相关性较强,柠檬酸与固定酸为同向变量,和挥发性酸为反向变量。
3、质量越高的红酒,其酒中挥发酸的含量越低。
4、葡萄酒的酒精浓度和酒的密度成强负相关关系。
5、随着pH值的降低,柠檬酸的酸性逐渐增强。
可挖掘的信息还有很多有待大家慢慢挖掘,如果喜欢请点赞关注,谢谢支持~!
网友评论