美文网首页python数据分析人工智能机器学习
运用python的数据分析及数据可视化

运用python的数据分析及数据可视化

作者: 阿斯顿820 | 来源:发表于2019-08-21 10:52 被阅读1次

    数据分析的80%的时间都是花费在数据处理当中,数据的准确性和有效性也会决定对其他部门的影响,这一环节,我们主要讲讲python数据处理的常见的方法和逻辑。

    数据的导入

    查看数据的情况

    数据类型的调整

    异常值和缺失值的处理

    重复值的处理

    选取相关维度的数据做数据分析

    数据的可视化

    接下来我以药店销售数据做个简单的分析,里面会包含着python中pandas常用的数据处理的方法,数据分析以之前需要确立分析的问题:

    药店销售最好的药有什么特点

    1月份和3月份的销售金额的比较(2月无数据),有什么趋势

    对于异常值的分析

    1.数据的导入

    这里要注意文件名有中文会出现打不开的情况,可以先用open函数先打开,再read_excel

    2.对于药店数据的查看

    数据共有6578行,可以看出数据有缺失

    3.数据类型的转换,购药时间换成时间类型,社保卡号,商品编码转化为字符型,销售数量转化为int

    这里时间的数据类型我将它拆成了日期和星期运用apply和lambda匿名函数的组合,处理之后发现社保卡号和商品编码都有小数,可以用split函数处理

    4.缺失值的处理

    运用dropna函数去除缺失值,对于缺失值的处理方式一般有填充和删除,填充以平均值和众数为主,这里缺失值较少,我就直接删除。

    异常值一般为和平均值相差3个标注差的数据,以及不符合常理的数据,就比如销售为负数,但也有可能这表示为退货数量,一下就选取销售量大于0的数据

    5.数据的建模

    查看一下时间的跨度

    选取1,3月份的数据查看一下销售额和销售数量

    看一下单价,三月比一月份总体而言价格和数量下降,单价也有所下降,成下降趋势

    7.查看一下1月和3月的需求最多的药品

    发现top药品治疗高血压的较多,真是越老病越多

    8.买药最多的人分析

    发现社保卡号1616528的人买的药最多,单独提取他的数据

    数据中在插入一列月份,来查看他每月的买药情况,查看的买药的情况

    9.数据可视化

    将金额转换为整形

    学习资料点击这里

    相关文章

      网友评论

        本文标题:运用python的数据分析及数据可视化

        本文链接:https://www.haomeiwen.com/subject/facbsctx.html