Red Wine——红葡萄酒各指标相关性分析

作者: 我叫钱小钱 | 来源:发表于2018-07-23 21:50 被阅读72次

特别声明：本文仅兴趣交流，感兴趣的水友也可以在下面留言，转载请联系作者。

数据介绍
数据来源：Kaggle，red-wine-quality-cortez-et-al-2009.zip
数据指标：酸度、甜度等成分指标为连续性变量，质量为离散变量（由多个专家给出的品质等级0~10）

          {'fixed acidity': '固定酸',
           'volatile acidity': '挥发性酸',
           'citric acid': '柠檬酸',
           'residual sugar': '残留糖分',
           'chlorides': '氯化物',
           'free sulfur dioxide': '游离二氧化硫',
           'total sulfur dioxide': '总二氧化硫',
           'density': '浓厚度',
           'pH': '氢离子浓度',
           'sulphates': '硫酸盐',
           'alcohol': '酒精度',
           'quality': '质量'}

数据转换
先看一下前十行数据 source_data.head(10)

将字段转换成中文 source_data.rename(columns=col_map, inplace=True)
快速进行描述性统计 source_data.describe()
图例展示
数据分布情况 sns.distplot(source_data['质量'], color="k",bins=6,kde= False,fit=norm) 数据为正态分布

各指标行列转换，热图展示

# 皮尔森相关系数 前提是要数据正态分布
# abs(r) < 0.3 不相关
# 0 <= abs(r) <= 0.3 低相关
# 0.3 < abs(r) <= 0.8 中相关
# 0.8 < abs(r) <= 1 高相关
hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)

mask = np.zeros_like(hq_data_corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

sns.heatmap(hq_data_corr, 
            cmap= 'RdYlGn_r', 
            linewidths = 0.05, 
            mask = mask,
            alpha = 0.95,
            annot = True,
            center=0,
            fmt = '.2f',
            vmin = -1,
            vmax = 1)

其中大红色为正相关系数，绿色为负相关性系数，颜色越深表面相关性越高

以各等级红酒分类，并相关性图例展示

sns.pairplot(hq_data
             ,vars = temp_cols
             ,kind="reg" # 回归线
             ,diag_kind="kde" # 对角分布 
             ,hue="quality" 
             ,palette='mako',
            )

最后总结
1、市场质量特别好的红酒和质量特比差的红酒数量都相对较少，更多的是质量中等的红酒。不同质量的红酒基本满足正态分布。
2、红葡萄酒的柠檬酸与固定酸和挥发性酸相关性较强，柠檬酸与固定酸为同向变量，和挥发性酸为反向变量。
3、质量越高的红酒，其酒中挥发酸的含量越低。
4、葡萄酒的酒精浓度和酒的密度成强负相关关系。
5、随着pH值的降低，柠檬酸的酸性逐渐增强。

可挖掘的信息还有很多有待大家慢慢挖掘，如果喜欢请点赞关注，谢谢支持~！

网友评论

本文标题：Red Wine——红葡萄酒各指标相关性分析

本文链接：https://www.haomeiwen.com/subject/nuzjmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Red Wine——红葡萄酒各指标相关性分析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python三期爬虫作业

python机器学习爬虫

数据分析技术帖