数据分析的80%的时间都是花费在数据处理当中,数据的准确性和有效性也会决定对其他部门的影响,这一环节,我们主要讲讲python数据处理的常见的方法和逻辑。
数据的导入
查看数据的情况
数据类型的调整
异常值和缺失值的处理
重复值的处理
选取相关维度的数据做数据分析
数据的可视化
接下来我以药店销售数据做个简单的分析,里面会包含着python中pandas常用的数据处理的方法,数据分析以之前需要确立分析的问题:
药店销售最好的药有什么特点
1月份和3月份的销售金额的比较(2月无数据),有什么趋势
对于异常值的分析
1.数据的导入
![](https://img.haomeiwen.com/i19240442/0d671c04c20398b1.jpg)
这里要注意文件名有中文会出现打不开的情况,可以先用open函数先打开,再read_excel
2.对于药店数据的查看
![](https://img.haomeiwen.com/i19240442/3101ae9044c7783d.jpg)
![](https://img.haomeiwen.com/i19240442/3b203b1ad426afec.jpg)
数据共有6578行,可以看出数据有缺失
3.数据类型的转换,购药时间换成时间类型,社保卡号,商品编码转化为字符型,销售数量转化为int
![](https://img.haomeiwen.com/i19240442/02ca0c1f3207a7a9.jpg)
![](https://img.haomeiwen.com/i19240442/a2a017a75b4b639f.jpg)
这里时间的数据类型我将它拆成了日期和星期运用apply和lambda匿名函数的组合,处理之后发现社保卡号和商品编码都有小数,可以用split函数处理
![](https://img.haomeiwen.com/i19240442/d5a71adf4c8b1f76.jpg)
4.缺失值的处理
![](https://img.haomeiwen.com/i19240442/949d9a315e2f7ce5.png)
运用dropna函数去除缺失值,对于缺失值的处理方式一般有填充和删除,填充以平均值和众数为主,这里缺失值较少,我就直接删除。
异常值一般为和平均值相差3个标注差的数据,以及不符合常理的数据,就比如销售为负数,但也有可能这表示为退货数量,一下就选取销售量大于0的数据
![](https://img.haomeiwen.com/i19240442/6952c4721decae35.jpg)
![](https://img.haomeiwen.com/i19240442/1142a1c08d9e4ce0.jpg)
5.数据的建模
![](https://img.haomeiwen.com/i19240442/1604f82ef814b3e1.jpg)
查看一下时间的跨度
![](https://img.haomeiwen.com/i19240442/470b581b4177cc42.jpg)
选取1,3月份的数据查看一下销售额和销售数量
![](https://img.haomeiwen.com/i19240442/fcdeb56280508134.jpg)
看一下单价,三月比一月份总体而言价格和数量下降,单价也有所下降,成下降趋势
7.查看一下1月和3月的需求最多的药品
![](https://img.haomeiwen.com/i19240442/37608f2834bf525b.jpg)
![](https://img.haomeiwen.com/i19240442/9de270b1cf10ea93.jpg)
发现top药品治疗高血压的较多,真是越老病越多
8.买药最多的人分析
![](https://img.haomeiwen.com/i19240442/63d405dfe0eec9b2.jpg)
发现社保卡号1616528的人买的药最多,单独提取他的数据
![](https://img.haomeiwen.com/i19240442/fadc883631cab7bc.jpg)
![](https://img.haomeiwen.com/i19240442/8c0d9dfc100aa21d.jpg)
数据中在插入一列月份,来查看他每月的买药情况,查看的买药的情况
9.数据可视化
![](https://img.haomeiwen.com/i19240442/a01522997bd38cf6.jpg)
将金额转换为整形
![](https://img.haomeiwen.com/i19240442/7a4b56e2c10b6476.jpg)
![](https://img.haomeiwen.com/i19240442/2dd396e1cc736895.jpg)
学习资料点击这里
网友评论