数据分析的80%的时间都是花费在数据处理当中,数据的准确性和有效性也会决定对其他部门的影响,这一环节,我们主要讲讲python数据处理的常见的方法和逻辑。
数据的导入
查看数据的情况
数据类型的调整
异常值和缺失值的处理
重复值的处理
选取相关维度的数据做数据分析
数据的可视化
接下来我以药店销售数据做个简单的分析,里面会包含着python中pandas常用的数据处理的方法,数据分析以之前需要确立分析的问题:
药店销售最好的药有什么特点
1月份和3月份的销售金额的比较(2月无数据),有什么趋势
对于异常值的分析
1.数据的导入
这里要注意文件名有中文会出现打不开的情况,可以先用open函数先打开,再read_excel
2.对于药店数据的查看
数据共有6578行,可以看出数据有缺失
3.数据类型的转换,购药时间换成时间类型,社保卡号,商品编码转化为字符型,销售数量转化为int
这里时间的数据类型我将它拆成了日期和星期运用apply和lambda匿名函数的组合,处理之后发现社保卡号和商品编码都有小数,可以用split函数处理
4.缺失值的处理
运用dropna函数去除缺失值,对于缺失值的处理方式一般有填充和删除,填充以平均值和众数为主,这里缺失值较少,我就直接删除。
异常值一般为和平均值相差3个标注差的数据,以及不符合常理的数据,就比如销售为负数,但也有可能这表示为退货数量,一下就选取销售量大于0的数据
5.数据的建模
查看一下时间的跨度
选取1,3月份的数据查看一下销售额和销售数量
看一下单价,三月比一月份总体而言价格和数量下降,单价也有所下降,成下降趋势
7.查看一下1月和3月的需求最多的药品
发现top药品治疗高血压的较多,真是越老病越多
8.买药最多的人分析
发现社保卡号1616528的人买的药最多,单独提取他的数据
数据中在插入一列月份,来查看他每月的买药情况,查看的买药的情况
9.数据可视化
将金额转换为整形
学习资料点击这里
网友评论