美文网首页
Kaggle案例-美国牛油果EXCEL数据分析思路

Kaggle案例-美国牛油果EXCEL数据分析思路

作者: anti酱 | 来源:发表于2019-06-07 17:07 被阅读0次

    注:本人是数据分析小白,这是第一篇数据分析报告,分析较肤浅,欢迎批评指正

    数据来源:www.kaggle.com/neuromusic/avocado-prices

    基本步骤梳理

    1 提出问题

          2 理解数据

          3 数据处理

          4 构建模型

          5 数据可视化

    1牛油果案例提出以下问题

         1每年袋装牛油果中各袋种类的比例/单卖牛油果品类占比

         2美国牛油果自2015年以来的总销量和袋装变化情况及袋装比例变化

         3美国传统牛油果和有机牛油果销量和单价的变化

         4牛油果各地区比例变化

    2理解数据

    原始数据

         查看原始数据集,理解数据:

         Date——售卖日期

         Average Price——每个牛油果平均价格

        Total Volume——所有形式牛油果总销售量

        Total Bags——总袋数牛油果的销量

        small bags/large bags/Xlarge Bags——分别为不同袋装类型(小袋、大袋、超大袋)牛油果销量

        types——牛油果种类,分为传统和有机牛油果

        year——售卖年份

        region——销售地区

       █理解难点:4046/4225/4770——通过查询原数据来源得知均为Product lookup Code,为超市等为产品编制的产品查找代码,查看数据得知这几列均为单个售卖个数(由于本数据集中牛油果仅有单个售卖和袋装售卖方式)

    3数据处理(为保证原数据准确性,新建工作表再复制原数据操作)

       1列名重命名:将数据列名转换为易于理解的形式——4046/4225/4770加上PLU-。

       2缺失值:第一列缺乏列名——通过第二列日期时间可以确定为周,手动填写Week补全

       3重复值、异常值:本数据不存在重复值和异常值

       4一致化处理:通过检查数据,发现region一列既有各个城市,又有Southwest等区域,还有total US,处理极大不方便,应该分层次处理

         具体如下:

         1在region一列右边新建country列,将原region列中所有Total US的数据复制到新建的名为“country”的列中——可ctrl +G选中空格然后输入=IF($N2=”Total US”,$N2,””),ctrl+Enter批量填充

    新建country和region列,将原来的region列改为city

         2同理,在country列右边新建region列,将原region列改为city,选中空格后=IF(OR($N2=”Midsouth”,$N2=”Northeast”,$N2=”SouthCentral”,$N2=”Southeast”,$N2=”West”),$N2,””),CTRL+ENTER批量填充

         3将现在的region列和country列全选/右键复制/选择性粘贴/值和数字形式——避免原region列的数值变化后这两列也跟着变化

         4选中city一列,ctrl+F定位出所有的”Total US”、”Midsouth”、”Northeast”、”SouthCentral”、”Southeast”、”West”后全选,然后替换为” “最终得到下表作为“中间数据”工作表(其中country列仅有Total US,region列仅有Southwest等地区,city列为除了Total US和Southwest以外的城市)

    进行一致化处理后的表格(命名为“中间数据”) country列内容 region列内容——各地区

    4数据透视表分析及可视化

    根据具体问题建立数据透视表分析,具体流程如下:

    1选中“中间数据”工作表任意数据/插入菜单——数据透视表

    插入数据透视表

    2得到弹出窗口/确定

    弹出对话框

    3得到数据透视表工作表,选择与问题相关的数据字段,即可形成数据透视表——此处以各城市牛油果总销量为例,要得到每年牛油果销量最高的十大城市,可选择city列加入行右键值筛选出销量前十的城市,年加入列,即可得到下表

    数据透视表页面 美国牛油果销量前十数据透视表字段 美国牛油果销量前十数据透视表字段

    4数据可视化操作

    选中数据透视表任意位置——插入数据透视图——选择合适的图表即可(为保证图表按照某一顺序排列插入数据透视图前可先对数据排序)

    插入数据透视图 数据筛选操作 数据排序操作

    选择一定数据透视图的样式,最终得到图表如下:

    美国牛油果销量前十城市

    5数据分析部分及分析报告制作

    根据上一步得到的图表,本文主要从城市、总销量VS 袋装销量、地区、有机VS 传统、品类等方面分类进行分析

    城市

    美国牛油果销量前十城市

    1.总体来看,美国各城市牛油果销量从2015年到2018年价格均有一定增加

    2.California牛油果的销量近年一直远超其他城市,近乎Great Lakes销量的两倍,从New York开始的销量第六到十的城市销量差距较小,均保持在50000000左右

    总销量VS袋装销量

    总销量与袋装销量变化

    1.数量上,袋装牛油果的销量与总销量相比仍然有很大差距,目前单个牛油果售卖仍占据主流。

    2.2015年到2018年,袋装牛油果销量的比例涨幅较大,由2015年第一季的15%上涨到2018年第一季的近35%,反映出牛油果需求量的逐年增加。

    地区-销量分布

    各地区牛油果销量占比

    1.West地区牛油果销量占美国各地区比例最高,从2015开始均维持在近30%。

    2.牛油果销量地区分布不均,West和South Central创造了超过50%的美国牛油果销量,Northeast等其他三区销量占比较低,应采取措施提高销量。

    地区-销量变化

    各地区销量变化情况

    1.West和South Central销量最高,其他区域与之差距较大。

    2.West销量占据美国各区第一,但从2017年第二季开始South Central逐渐缩小与West的差距,2018年有望赶超West区域跃居第一。

    3.各地区销量均呈现出明显的季节变化,第一二季度销量较高,三四季度销量下滑。

    有机VS传统

    有机与传统牛油果销量对比

    1.从销量来看,有机牛油果销量与传统牛油果差异巨大,目前还仅仅是传统牛油果销量的零头,有机牛油果销售还有很大市场发展空间。

    有机与传统牛油果价格变化

    2.有机牛油果与传统牛油果价格变化趋势相同,但有机牛油果的价格相对传统牛油果偏高,两者价格差异维持在0.5美元/个左右,这可能导致了有机牛油果销量的偏低。

    有机与传统牛油果销量变化

    3.有机牛油果与传统牛油果销量变化趋势总体相同,但涨幅方面,有机牛油果涨幅较传统牛油果更大,2015年到2018年,从6亿左右近乎翻了一倍,有机牛油果销量上尚有很大提升潜力。

    品类-袋装

    袋装牛油果各品类销量占比

    1.目前,小袋牛油果销量仍是袋装牛油果销量的主要来源,超大袋牛油果销量占比极低。

    2.大袋牛油果销量占比2015-2018年间有一定上涨,该类牛油果可能家庭购买食用,反映出美国人民对牛油果需求增加,但目前超大袋的需求量仍微不足道,可适当减少其生产量。

    品类-单卖

    单卖牛油果各品类销量占比

    1.单卖牛油果中,4225和4046销量组成了单卖总销量的90%以上,其中4046销量在50%左右波动,4770销量情况不太乐观。

    2.可适当推出4225和4046的两个装刺激销量,满足个人消费者的消费需求。

    制作数据分析报告(略)

    按照总分总的格式制作数据分析PPT报告,具体文档分类:背景与目的——美国牛油果销量价格分析——结论与总结

    相关文章

      网友评论

          本文标题:Kaggle案例-美国牛油果EXCEL数据分析思路

          本文链接:https://www.haomeiwen.com/subject/mgprxctx.html