美文网首页数据分析商业智能BI那点事儿大数据
Python数据分析系列(1)——葡萄酒评分

Python数据分析系列(1)——葡萄酒评分

作者: 天善智能 | 来源:发表于2017-12-23 12:07 被阅读189次

    感谢关注天善智能,走好数据之路↑↑↑

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

    天善智能社区地址:https://www.hellobi.com/


    数据获取

    数据来源:Kaggle数据集

    Kaggle数据:葡萄酒评分数据选

    了个葡萄酒评分的数据,下载下来之后,内容是这样的:

    葡萄酒评分数据集

    一共有150929条记录

    数据集的描述是这样的:

    在观看Somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

    小编百度了一下Somm的影片信息如下:

    我们看看各字段含义:

    评分(Points):评分为1-100

    品种(Variety):用来制作葡萄酒的葡萄品种

    描述(Description):侍酒师的几句话描述酒的味道,气味,外观,感觉等。

    国家(Country):葡萄酒来自的国家

    省(Province):葡萄酒来自的省份或州

    区域1(Region 1):一个省或州的葡萄酒产区(即纳帕)

    区域2(Region 2):有时在葡萄酒产区内有更具体的区域,但是这个值有时可能是空白的

    酒庄(Winery):酿酒的酿酒厂

    名称(Designation):葡萄酒酿造厂所在的葡萄园

    价格(Price):一瓶葡萄酒的价格

    数据探索

    我们使用pandas读取这个文件:

    pandas读取数据集

    我们查看一下前五行数据:

    前五行数据

    删除本次分析用不到的字段后再次看看情况:

    清洗后的数据

    查看每个字段的类型:

    字段类型

    发现评分和价格是数值型的,我们计算时候就不用转换类型了~

    各字段的数据缺失情况:

    数据缺失情况

    本想把有缺失值的记录去掉,去掉后发现只有US的葡萄酒信息,所以没去除存在缺失值的记录

    葡萄酒的评分情况

    通过绘制直方图查看评分分布情况:

    葡萄酒得分分布图

    发现基本符合高斯分布情况,评分大多集中在85~90分

    葡萄酒的价格情况

    接着我们看看葡萄酒的价格情况:

    葡萄酒价格分布

    发现价格集中在图示的最左端,因为有特殊离群值的影响,所以区间给的特别宽

    异常检查

    通过筛选发现确实是有特别昂贵的葡萄酒(这里暂且不管这个价格数据是采集异常还是真的这么贵)

    为了可视化到主要的部分,我们选中大部分的价格重新做可视化

    异常排除后的葡萄酒价格分布

    这样就可以看到,大部分的价格是在0-100(好像数据集提供者没告诉我价格的单位)

    为了买到满意的葡萄酒,我们看看葡萄酒的性价比

    简单定义为 性价比 = 评分/价格

    葡萄酒性价比计算结果

    结果发现计算出的价格低的明显性价比高

    我们看看总体上葡萄酒价格和评分的关系:

    葡萄酒价格与评分散点图

    发现评分相同的葡萄酒,价格还是差异挺大,特别是评分较高的葡萄酒价格的差异

    从图中也可以看出,有几个离群值,他们大多价格很高!

    葡萄酒基本来自哪些国家

    葡萄酒产地统计

    我们看到,生产葡萄酒的五个大国分别是:美国、意大利、发过、西班牙、智利共和国。

    为了更直观凸显他们的比例,我们绘制饼图:

    葡萄酒产地占比情况

    发现美国真是占据了葡萄酒的半壁江山啊

    应该是这个数据收集者没收集到中国的数据,我们也是葡萄酒大国之一啊!

    看看这些国家在全球的分布(点的大小代表葡萄酒品种多):

    葡萄酒产地分布图(1)

    除去美国最多,我们看看其次的几个:

    葡萄酒产地分布图(2)

    (以上两个图是用Tableau画的)

    酿造葡萄酒的葡萄品种

    葡萄品种统计

    我这个不懂酒的程序猿马上查了一下前三的葡萄!

    葡萄品种介绍(1) 葡萄品种介绍(2)

    为了看一下这些葡萄使用的比重,做个饼图:

    葡萄品种占比

    发现前三种占据了1/4

    后面还有使用较少的名称堆叠在了一起

    酒庄信息

    我们接下来看看酒庄信息:

    酒庄信息统计

    前五的葡萄酒品种最多

    分别是:

    1.威廉斯莱酒庄

    酒庄介绍(1)

    2.特斯坦罗萨酒厂

    3.DFJ Vinhos

    酒庄介绍(2)

    4.圣密夕酒庄

    酒庄介绍(3)

    5.哥伦比亚山峰酒庄

    酒庄介绍(4)

    看看哪个酒庄的葡萄酒均价最高:

    酒庄葡萄酒均价

    1.巴布莱尔酒庄

    苏格兰最古老的酒庄之一,巴布莱尔酒庄是全球唯一专注生产单一年份威士忌(Single Vintage Whisky)的酒庄。

    2.拉图城堡酒庄

    享有“全球最昂贵的酒庄”声誉,是当之无愧的法国国宝级酒庄。

    3.花思蝶酒庄

    700年的历史,意大利托斯卡纳最古老的葡萄酒世家之一,曾成为罗马教皇和英王亨利八世的御用佳酿。

    4.奥比昂酒庄

    法国五大酒庄之一

    5.美讯庄园

    地处法国波尔多(Bordeaux)格拉夫(Graves)产区的最北端,与奥比昂酒庄(Chateau Haut-Brion)同属于克兰斯帝龙酒业集团(Domaine Clarence Dillon)旗下酒庄,两个酒庄之间仅有一路之隔。美讯酒庄出产的葡萄酒是整个波尔多地区首屈一指的顶级佳酿。

    我们看看这五个酒庄的葡萄酒平均价格变化趋势:

    葡萄酒平均价格

    前两个的价格遥遥领先~

    买不起,买不起!


    原文地址:Python数据分析系列(1)——葡萄酒评分

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

    天善智能社区地址:https://www.hellobi.com/

    相关文章

      网友评论

        本文标题:Python数据分析系列(1)——葡萄酒评分

        本文链接:https://www.haomeiwen.com/subject/gcofgxtx.html