先看数据集情况:
数据集一 数据集二首先要明白数据分析步骤,大致分为七个步骤:
母婴用品销售分析框架.png一、明确分析目标
要了解项目背景和分析目标,以目标为导向才能让分析更有意义。
目标要提高销售情况,因此就要确定销量跟哪些因素有关,并对可能影响销量的因素进行分析,这样才能得出有效的分析结论,进而指导店铺制定接下来的经营策略。
二、理解数据集
理解需要分析的数据集的每个字段的意义和不同表格之间的关联情况,并确定哪些是需要使用的字段,哪些是不需要使用的字段,并进行标记。
理解字段三、根据字段进行问题提取
需要分析哪些问题(可以从不同维度、度量和相关关系进行问题的探索,可结合数据分析方法论)。
这里大致提出几个问题(详情看思维导图)。
四、数据清洗
这个步骤也可以放在第一步(但是放在第一步有可能会导致清洗工作量变大),使用的知识点有去重、数字类型转换(函数)、分列、表连接、异常值处理等等。
(1)选择子集
选择需要的字段,对不需要的字段进行删除
(2)列名重命名
由于储存在数据库里的字段列名大多是英文的,重命名为中文会方便理解和后续的分析
(3)数据类型转换
表1中购买数量和时间和表2中的出生日期需要进行数据类型的转换,分别改成数值型和日期型(使用函数和分列)。
=LEFT(F2,LEN(F2)*2-LENB(F2)) 提取购买数量的数值
(4)数据去重
使用菜单去重,对重复值进行删除处理。
(5)缺失值处理
每列进行分析查看空值,有空值的进行填充或者删除(看数据量大小),本案例直接进行删除。
(6)异常值处理
根据业务的逻辑对数据集的异常数据进行处理(看数量大小可以直接进行删除或者其它方法)。
(7)关联数据
对两个表进行连接,用vlookup函数。
(8)数据整理
对表连接之后出现的数据进行进一步的处理。
五、描述性统计
数据整理好之后,采用描述性统计的方式对数据的总体特征和大致情况进行概览。
描述性统计
六、数据可视化
对前面提出的五个问题进行可视化分析处理,可视化要以问题为导向(由于数据源有限,可分析点不多,因此只列出思路,不做可视化图形,感兴趣的朋友可以自己练习)
1 2 3 4 5七、总结分析
对分析的结果进行概况总结,并制定相应的可执行方案给业务方进行执行,从而提高销售数量,只有分析结果有效,且方案具有可行性,这样的分析才有意义。
网友评论