Red Wine——红葡萄酒各指标相关性分析

作者: 我叫钱小钱 | 来源:发表于2018-07-23 21:50 被阅读72次

    特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。

    • 数据介绍
      数据来源:Kaggle,red-wine-quality-cortez-et-al-2009.zip
      数据指标:酸度、甜度等成分指标为连续性变量,质量为离散变量(由多个专家给出的品质等级0~10)
              {'fixed acidity': '固定酸',
               'volatile acidity': '挥发性酸',
               'citric acid': '柠檬酸',
               'residual sugar': '残留糖分',
               'chlorides': '氯化物',
               'free sulfur dioxide': '游离二氧化硫',
               'total sulfur dioxide': '总二氧化硫',
               'density': '浓厚度',
               'pH': '氢离子浓度',
               'sulphates': '硫酸盐',
               'alcohol': '酒精度',
               'quality': '质量'}  
    
    • 数据转换
      先看一下前十行数据 source_data.head(10)


      将字段转换成中文 source_data.rename(columns=col_map, inplace=True)
      快速进行描述性统计 source_data.describe()
    • 图例展示
      数据分布情况 sns.distplot(source_data['质量'], color="k",bins=6,kde= False,fit=norm) 数据为正态分布


      各指标行列转换, 热图展示
    # 皮尔森相关系数 前提是要数据正态分布
    # abs(r) < 0.3 不相关
    # 0 <= abs(r) <= 0.3 低相关
    # 0.3 < abs(r) <= 0.8 中相关
    # 0.8 < abs(r) <= 1 高相关
    hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)
    
    mask = np.zeros_like(hq_data_corr, dtype=np.bool)
    mask[np.triu_indices_from(mask)] = True
    
    sns.heatmap(hq_data_corr, 
                cmap= 'RdYlGn_r', 
                linewidths = 0.05, 
                mask = mask,
                alpha = 0.95,
                annot = True,
                center=0,
                fmt = '.2f',
                vmin = -1,
                vmax = 1)
    

    其中大红色为正相关系数,绿色为负相关性系数,颜色越深表面相关性越高


    以各等级红酒分类,并相关性图例展示

    sns.pairplot(hq_data
                 ,vars = temp_cols
                 ,kind="reg" # 回归线
                 ,diag_kind="kde" # 对角分布 
                 ,hue="quality" 
                 ,palette='mako',
                )
    
    • 最后总结
      1、市场质量特别好的红酒和质量特比差的红酒数量都相对较少,更多的是质量中等的红酒。不同质量的红酒基本满足正态分布。
      2、红葡萄酒的柠檬酸与固定酸和挥发性酸相关性较强,柠檬酸与固定酸为同向变量,和挥发性酸为反向变量。
      3、质量越高的红酒,其酒中挥发酸的含量越低。
      4、葡萄酒的酒精浓度和酒的密度成强负相关关系。
      5、随着pH值的降低,柠檬酸的酸性逐渐增强。

    可挖掘的信息还有很多有待大家慢慢挖掘,如果喜欢请点赞关注,谢谢支持~!

    相关文章

      网友评论

        本文标题:Red Wine——红葡萄酒各指标相关性分析

        本文链接:https://www.haomeiwen.com/subject/nuzjmftx.html