基于业务浅谈python的数据处理思路【一】

作者: 言木石 | 来源:发表于2019-08-23 23:49 被阅读7次
    一、背景:

    在对运营看板进行数据分析时,发现一个极端异常数据,在同类维度中,未完成量明显高于其他维度,如下图所示。于是通过python对数据作进一步挖掘、处理、分析,找到背后的原因。

    【注:下图中红色代表完成量,蓝色代表未完成量,数值9173为异常数据。】 BI看板截图 思路:先连接数据库查询该维度相关数据随时间维度的分布情况,看看是否能找出异常的时间点。
    二、本文主要包括如下几方面内容:
    • 用python连接数据库,查询数据
    • 将查询出的数据转变成DataFrame
    • 修改/替换DataFrame中某列的值
    • 修改DataFrame的column值
    • 对DataFrame重置索引
    • 对DataFrame作切片操作
    • 对时间不连续的数据,作连续态处理
    • 利用DataFrame的数据,绘制直方图
    三、数据处理
    1、导入包,定义数据库连接参数
    #导入需要用到的一些包
    from pyecharts import Bar
    import pymysql
    import pandas as pd
    import numpy as np
    #输入数据库相关参数,连接数据库
    conn_test = pymysql.connect(
       host='*********',
       port=3306,
       user='********',
       passwd='********',
       db='*********'
    )
    cur_test = conn_test.cursor()#使用cursor()方法获取操作游标
    
    2、输入查询语句,获取相关数据
    cur_test.execute("select ******************")
    data_activity_order = cur_test.fetchall()#获取查询的数据
    
    打印查询的数据结果如下图所示,其中0代表未完成,1代表完成。
    3、将数据转换成DataFrame
    columnDes = cur_test.description#所有数据的描述
    columnNames = [columnDes[i][0] for i in range(len(columnDes))]#通过描述,得到列名称
    df_activity_order= pd.DataFrame(list(data_activity_order))#得到的数据data_activity_order是元组,元组要转为list,list再次转为dataframe
    df_activity_order.columns = columnNames#修改df_activity_order列名称为数据库里的列名称
    
    4、将列表中状态值为0、1分别替换成未完成、已完成

    注释:c_state即为数据表中表示状态的字段名。

    df_activity_order.loc[df_activity_order['c_state']==0,'c_state'] = '未完成'#通过df.loc函数,按特定的标签获取数据,并对数据进行替换。
    df_activity_order.loc[df_activity_order['c_state']==1,'c_state'] = '已完成'
    
    打印转换后的DataFrame,其中c_state的值已经进行了替换。
    5、更改索引为c_state(状态),将列表作拆分
    df_activity_order = df_activity_order.set_index(['c_state'],inplace=False)#将索引替换成c_pay_state,进而便于后续对数据进行拆分、重塑操作。
    df_activity_order_finish = df_activity_order.loc[df_activity_order.index == '已完成']#通过df.loc函数提取“已完成”的数据,并且存入新的df中。
    df_activity_order_unfinish = df_activity_order.loc[df_activity_order.index == '未完成']#通过df.loc函数提取“未完成”的数据,并且存入新的df中。
    
    拆分的“已完成/未完成”的DF,注意其中的时间存在不连续的情况。
    6、将拆分后的表更改索引为days(日期),为后面的数据重塑作准备。
    df_activity_order_finish = df_activity_order_finish.set_index(['days'],inplace=False)#对df重置索引为日期
    df_activity_order_unfinish = df_activity_order_unfinish.set_index(['days'],inplace=False)#同上
    df_activity_order_finish.columns = ['amount_finish']#由于查询出来的column都是amount,于是在此将df_activity_order_finish的columns 修改成amount_finish
    df_activity_order_unfinish.columns = ['amount_unfinish']#同上
    
    7、构建时间连续、值为0的空列表。
    date_list = pd.date_range(start='20181011',end='20190820')#获取起始日期至末尾日期之间的日期序列。
    len_date_list =  len(date_list)#获取时间序列的长度,作为后续df的行数
    df_date_list_finish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_finish'],index=date_list)#利用np.zeros构建全0的array,再用pd.DataFrame转换成df
    df_date_list_unfinish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_unfinish'],index=date_list)#同上
    
    8、对数据进行重塑,保证时间连续,同时计算完成占当日的比例情况。
    df_activity_order_finish_new = (df_date_list_finish + df_activity_order_finish).fillna(0)#将拆分后完成的df与时间连续的df进行合并,缺失值以0补齐。
    df_activity_order_unfinish_new = (df_date_list_unfinish + df_activity_order_unfinish).fillna(0)#同上
    df_per = pd.concat([df_activity_order_finish_new,df_activity_order_unfinish_new],axis=1, join_axes=[df_activity_order_unfinish_new.index])#将重塑后的已完成、未完成df进行合并。
    #计算已完成的数量在当日的占比情况,
    with np.errstate(invalid='ignore'):#由于可能存在分母为0的情况,计算过程中会报错,因而需要对此类报错进行忽略。
        df_per['per'] = df_per.apply(lambda x: x['amount_finish'] / (x['amount_unfinish']+x['amount_finish']), axis=1)#计算已完成的数量在当日的占比情况。
        df_per = df_per.fillna(0)#错误值以0补齐。
        df_per = df_per.round(3)#保留三位小数
    
    处理后的df

    至此,已经将数据从数据库中提取出来,并已经处理好了,按照日期序列作了重塑,保证时间的连续性,同时也计算了当日完成的数据占当日总数的比例情况。

    四、数据可视化
    1、对数据结果作可视化处理,便于直观查看数据的分布情况。
    bar_df_per = Bar("每日订单情况","")
    bar_df_per.add('完成数',df_new.index,df_new.amount_finish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
    bar_df_per.add('未完成数',df_new.index,df_new.amount_unfinish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
    bar_df_per.add('完成数占当日的比例',df_new.index,df_new.per,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",)
    bar_df_per.render()
    
    生成的每日数据图

    从上面的数据图,我们可以看出异常的数据来自于05.08日。接下来再从数据库中,对这一天的数据,按照相关的维度进行进一步挖掘、分析,进而找到背后的原因。

    写在后面的话:
    文中部分操作可能饶了弯路,有可以优化的空间,但是主要是想借着这次业务场景,整理下python的部分数据处理思路、方法。
    另外,请忽略不规则的变量命名,毕竟调研得出,大部分人认为编程中最困难的一件事就是给变量命名。o(╯□╰)o

    相关文章

      网友评论

        本文标题:基于业务浅谈python的数据处理思路【一】

        本文链接:https://www.haomeiwen.com/subject/bdvwsctx.html