前言
数据分析步骤:
提出问题→理解数据→数据清洗→构建模型→数据可视化。
一、提出问题
1、最好的可可豆种植在哪里?
2、哪些国家/地区生产评级最高的酒吧?
3、可可固体百分比和评级之间的关系是什么?
二、理解数据
本数据来源于Kaggle:巧克力棒评级,
https://www.kaggle.com/rtatman/chocolate-bar-ratings
一共有1795行数据,包含9个字段,具体为:
1)Company 公司
2)Specific Bean Origin or Bar Name 特定豆类起源或酒吧名称
3)REF (与在数据库中输入审阅时链接的值。更高=更近)
4)Review Date 审核日期
5)Cocoa Percent 可可百分比
6)Company Location 公司位置
7)Rating 评分
8)Bean Type 豆类型
9)Broad Bean Origin 蚕豆起源
三、数据清洗
3.1选择子集
将第3列 REF 和 第4列 Review Date 审核日期两个子集隐藏:分别选中第3和第4列→右键→隐藏。
3.2 列表重命名
将列表的英文名称改为中文名称
3.3 删除重复值
选择数据→删除重复项→取消全选→选择 特定豆类起源或酒吧名称→确定
3.4缺失值处理
发现缺失值只有豆类型一列,很多都是无法确定的,但不影响后续分析,因此缺失值不做处理。(人工一次性补全所有缺失值方法:在找到的一个空白框内输入分析得到的值后,按住Ctrl+Enter)
3.5 一致化处理
3.5.1复制列:将特定豆类起源或酒吧名称列复制→最后空白列粘贴。
3.5.2分列
分列完成后将原来第2列隐藏。
对评分列从高到低进行排序
3.7 异常值处理
全选表格,将表格中的错误值删除。
四、构建模型
1、使用数据透视表分析最好的可可豆种植在哪里?
2、使用数据透视表分析哪些国家/地区生产评级最高的酒吧?
3、使用数据透视表分析可可固体百分比和评级之间的关系是什么?
五、总结
1、根据评分最高的排序可知最好的可可豆种植在6个地方,分别是
1)Guat., D.R., Peru, Mad., PNG
2)Venezuela, Java
3)Ven, Bolivia, D.R.
4)Dom. Rep., Madagascar
5)Gre., PNG, Haw., Haiti, Mad
6)Peru, Dom. Rep
2、根据评分最高的排序可知2个国家/地区生产评级最高的酒吧:
1)Bolivia
2)Chile
3、根据评分最高的排序可知,可可固体百分比73.50%时,所得的平均评分最高。
网友评论