美文网首页
CDNow网站用户消费行为分析

CDNow网站用户消费行为分析

作者: 蓝天花园 | 来源:发表于2021-02-27 21:34 被阅读0次

    写这本篇文章的目的是为了加深对数据分析的理解,文章以模仿为主,利用pandas,matplotlib进行数据处理和数据可视化分析,数据来源和鲸社区分享的CDNow网站的用户购买明细。一共有用户ID,购买日期,购买数量,购买金额四个字段。

    1.数据处理
    2.用户总体消费分析
    3.用户个体消费数据分析
    4.用户消费行为周期分析
    5.用户复购率与回购率

    数据处理

    导入数据

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    from datetime import datetime
    plt.style.use('ggplot')#使用自带的风格进行美化
    

    导入常用的库

    columns = ['user_id','order_dt','order_products','order_amount']
    df = pd.read_table(r'C:\Users\m\Desktop\CDNOW_master.txt',names = columns,sep='\s+')
    
    • 加载包和数据,文件是txt格式,用read_table打开,因为源数据不包括表头,所以需要赋予表头字段,字符串是空格分隔,用\s+表示匹配任意空白符。
    • 表头字段分为用户ID,购买日期,订单数,订单金额来分析,基本上这四个字段就可以进行丰富的分析。
    #默认输出前五行
    df.head()
    
    • 观察数据,order_dt列表示时间,但只是一串年月日的数字,后续需要数据类型转换。
    • 数据中存在一个用户同一天或不同天购买多次,如用户ID为2在12号购买了两次,这个细节要特别留意。

    描述性统计

    #汇总各列统计信息
    df.describe()
    

    describe是描述统计,对用户数据进行整体性判断:

    1. 从描述信息中,用户每个订单平均购买2.4个商品,每个订单平均消费35元
    2. 购买商品的标准差为2.33,说明数据有一定的波动性;中位数为2,75分位数为3,说明大部分订单购买数量不多。最大值为99,购买量比较大。购买金额的情况差不多,75分位数为43,大部分都集中在小额。

    总体数据来看,大部分用户都属于小额,也贡献了收入的大头,数据分布是呈长尾形态,俗称二八。

    数据处理

    df.info()
    

    查看数据类型、数据是否存在空值,原数据是很干净的数据,没有空值。接下来进行时间数据类型转换。

    df['order_date'] = pd.to_datetime(df.order_dt,format="%Y%m%d")
    df['month'] = df.order_date.values.astype('datetime64[M]')
    

    数据类型的转换:

    • pd.to_datetime可以将数字转换为时间类型,format参数用于匹配。%Y匹配前四位数字1997,小写y只匹配97,%m匹配01,%d匹配01,返回结果为1997-01-01。
    • astype可以将时间类型进行转换,[M]转换为月份,这里取月份窗口作为消费频率。

      小结

    到该步骤,我们通过描述性统计对数据有大概的了解,呈二八形态,也已经将数据类型处理为合适的类型,方便后续的分析。

    用户总体消费分析

    按照月份维度来分析用户总体消费趋势

    • 每月的总销售额
    • 每月的总销量
    • 每月的消费人数
    month_grouped = df.groupby('month')
    

    按月份进行统计分组

    month_grouped.order_amount.sum().plot()
    plt.title('总销售额')
    plt.show()
    
    • 按月统计CD的销量金额,从图中可以知道,前三个月的销量金额非常高。数据比较异常,而后期的销量金额则很平稳
    month_grouped.order_dt.count().plot()
    plt.title('消费次数')
    plt.show()
    
    • 图中可知前三个月的消费订单数在10000~12000笔区间中,订单数非常高涨,后期平均维持在2500笔左右。
    month_grouped.order_products.sum().plot()
    plt.title('总销量')
    plt.show()
    
    • 和销量金额一样,每月的产品销量呈现早期销量非常大,后期平稳下降的趋势。

    三个折线图的整体趋势基本一致,可以看出,前三个月的销量特别高涨,而三月份之后骤然下降,而后趋于平稳。为什么会出现骤然下降原因呢?第一假设用户数据出现问题,早期时间段的用户中存在异常值。第二假设是各类促销活动,但这里只有消费数据,所以无法判断。

    month_grouped.user_id.apply(lambda x:len(x.unique())).plot()
    plt.title('消费人数')
    plt.show()
    

    另一方面,通过消费人数的折线图看出在2月到3月消费人数稍有下降,但总销量与总销量金额依然上升,是不是说明3月份存在高价值的客户。
    小结

    上面四个折线图的整体趋势一致,呈现二八形态。通过消费人数分析了解到3月份存在高价值的客户,也说明我们应该重点挖掘3月份中的用户,重点发展高价值客户。

    用户个体消费数据分析

    前面我们是按月份维度进行整体来看数据趋势。接下来我们需要看个体消费能力如何,我们划分了五个方向:

    1. 用户消费金额,消费次数的描述性统计
    2. 用户消费金额,消费次数的散点图
    3. 用户消费金额的分布图(二八法则)
    4. 用户消费次数的分布图
    5. 用户累计消费金额的占比(百分之多少的用户占了百分之多少的消费额)

    用户消费金额,消费次数的描述统计

    用户的描述性统计
    group_user = df.groupby('user_id')
    print(group_user.sum().describe())
    

    从用户角度来看,每位用户平均购买7张CD,购买量的最大值购买了1033张。用户的平均消费金额是100元左右,标准差为240。两者结合分位数和最大值看,平均数和75分位数接近,存在小部分高消费用户,符合二八法则。

    用户消费金额和消费次数的散点图

    group_user.sum().plot.scatter(x='order_amount',y='order_products')
    plt.title('用户散点图')
    plt.show()
    
    • 从图上看用户比较健康而且规律性很强,整体符合CD网站商品单一的销售数据,金额和商品呈线性,没几个离散点。

    用户消费金额的分布图(二八法则)

    group_user.sum().order_amount.plot.hist(bins = 20)
    plt.show()
    
    • 从图中看用户的消费呈集中趋势,可能是有个别的极大值干扰导致。可以排除极大值再看看分布。
    group_user.sum().query("order_amount <800").order_amount.plot.hist(bins = 20)
    plt.show()
    
    • 从直方图图可知,绝大部分用户呈现集中在低的消费档次,将近半数的用户消费金额不超过40元,高消费用户(>200元)不超过2000人,高消费在图中几乎看不到,符合消费行为的行业规律。

    用户消费次数的分布图(二八法则)

    group_user.sum().query("order_products <100").order_products.plot.hist(bins = 40)
    plt.show()
    
    • 大部分用户购买CD的数量在7张内,大量购买CD的用户数量很低。

    用户累计消费金额的占比

    前面的分析对用户的消费行为有一个大概的了解,接下来分析用户质量。因为消费行为有明显的二八倾向,我们需要知道高质量用户为消费贡献了多少份额。

    user_amount = df.groupby('user_id').order_amount.sum().sort_values().reset_index()
    user_amount['amount_cumsum'] = user_amount.order_amount.cumsum()
    print(user_amount.tail())
    
    • 按用户的消费金额升序,使用cumsum累加函数。逐行计算累计的金额,获取最后的总消费金额为2500315。
    amount_total = user_amount.amount_cumsum.max()
    user_amount['prop'] = user_amount.apply(lambda x:x.amount_cumsum / amount_total,axis = 1)
    print(user_amount.tail())
    

    转换用户贡献消费金额百分比

    user_amount.prop.plot()
    plt.xlabel('用户数量')
    plt.ylabel('用户累计贡献百分比')
    plt.show()
    
    • 绘制趋势图,横坐标是以贡献金额大小排序的用户,纵坐标则是用户累计贡献百分比。前面知道总体用户为24000左右,图中可以看到前20000个用户贡献40%,后面4000位用户贡献了60%,确实呈现二八倾向。也就是说我们维护这4000个用户就可以达到业绩KPI完成60%。

    小结

    到此我们大概可以了解用户个体消费呈现二八形态,大部分用户都属于小金额用户,符合消费行业的行规律。通过用户累计消费金额占比趋势图有大概4000个用户贡献了总体的60%,如果能把4000个用户运营的更好就可以提高到占比70%左右,更容易提高业绩。

    用户消费行为周期分析

    • 用户第一次消费(首购)
    • 用户最后一次消费
    • 新老客户消费比
    • 用户生命周期
    • 用户购买周期
    • 用户复购率与回购率

    新用户第一次消费

    group_user.month.min().value_counts()
    
    • 按用户分组求月份的最小值,即用户消费行为中的第一次消费时间。图中可知所有用户的第一次消费都集中在前三个月。

    用户最后一次消费

    group_user.month.max().value_counts()
    
    group_user.month.max().value_counts().plot()
    plt.xlabel('月份')
    plt.ylabel('最后一次消费人数')
    plt.show()
    
    • 观察用户的最后一次消费时间。绝大部分数据依然集中在前三个月,后续的时间段内有用户消费,但增长缓慢递增,存在一定的用户回购
    • 前面提到的第一假设的异常趋势得到解释,但这只是部分用户的订单数据,所以有一定局限性。

    新旧用户消费比

    user_new_old = group_user.order_date.agg(['min','max'])
    new_old = (user_new_old['min'] == user_new_old['max']).value_counts()
    print(new_old)
    
    • 按用户分组,计算用户第一消费和最后一次消费时间,如果新旧时间一致,说明只消费了一次。统计数据可知有一半的用户只消费一次。
    plt.pie(x = new_old,
            labels=['仅消费一次','多次消费'],
            autopct= '%.1f%%',
            shadow= True,
            explode=[0.08,0],
            textprops={'fontsize':11})
    plt.title('新老用户消费比')
    plt.show()
    
    • 绘制饼图更直观反映现象,超过一半用户仅消费一次,这也说明留存用户效果不好,营运效果不佳。

    用户购买周期

    order_diff = group_user.apply(lambda x:x['order_date']-x['order_date'].shift())
    print(order_diff.head(10))
    
    • 每个用户的每次购买时间间隔,用户1只购买一次,所以为空值,用户2的第一笔订单与第二笔订单在同一天购买的。
    order_diff.describe()
    
    • 每个用户的购买时间间隔平均是68天,间隔最长的是533天。想要召回用户,在60天左右的消费间隔也是比较好的。

    消费周期分布

    (order_diff/ np.timedelta64(1,'D')).hist(bins =20)
    plt.show()
    
    • 数据呈指数分布,大部分用户的消费周期确实比较短,低于100天。

    用户生命周期

    orderdate_min = group_user.order_date.min()
    orderdate_max = group_user.order_date.max()
    user_life = orderdate_max-orderdate_min
    print(user_life.head())
    
    (orderdt_max-orderdt_min).describe()
    
    • 所有的用户平均生命周期有134天,中位数为0天也就是说有一半用户的生命周期只购买了一次。接下来看一下分布情况。
    ((orderdate_max-orderdate_min)/np.timedelta64(1,'D')).hist(bins=15)
    
    • 有一半的用户只消费一次,所以生命周期的大头都集中在0天。
    • 不妨将只消费了一次的新客排除,来计算所有消费过两次以上的老客的生命周期。
    life_time = (orderdate_max - orderdate_min).reset_index()
    print(life_time.head())
    
    life_time['life_time'] = life_time.order_date / np.timedelta64(1,'D')
    life_time[life_time.life_time > 0].life_time.hist(bins = 100)
    plt.show()
    
    • 这是双峰趋势图。20天内生命周期的用户是一个高峰,但无法持续,在用户首次消费30天内应该尽量引导,延长其生命周期。少部分用户集中在50天~300天,属于普通型的生命周期。高质量用户的生命周期,集中在400天以后,这已经属于忠诚用户了。
    用户复购率与回购率

    复购率

    复购率的定义:在某时间窗口内消费两次及以上的用户在总消费用户中占比。这里的时间窗口是月,如果一个用户在同一天下了两笔订单,这里也将他算作复购用户

    pivoted_df = df.pivot_table(index= 'user_id',
                                columns='month',
                                values='order_date',
                                aggfunc='count').fillna(0)
    print(pivoted_df.head())
    
    • 每个用户在每月的订单数,其中这里没有消费过的标记0。
    pivoted_df_tranf = pivoted_df.applymap(lambda x: 1 if x>1 else np.nan if x ==0 else 0 )
    
    
    • 数据转换一下,消费2次以上记为1,消费1次记为0,消费0次记为NAN
    (pivoted_df_tranf.sum() / pivoted_df_tranf.count()).plot(figsize = (10,4))
    plt.show()
    
    • 这里用sum和count相除即可计算出复购率。因为这两个函数都会忽略NaN,而NaN是没有消费的用户。count计算的是总的消费用户数,sum计算了两次以上的消费用户。
    • 图上可以看到早期的复购率并不高,是因为早期大量新用户加入,如一月份的复购率只有6%左右。而到后期,这是的复购率就相对稳定,在20%左右。
    • 单看新客和老客,复购率有三倍左右的差距。

    回购率
    接下来计算回购率,回购率是某一个时间窗口内消费的用户,在下一个时间窗口人就消费的占比。

    pivoted_amount = df.pivot_table(index = 'user_id',
                                    columns = 'month',
                                    values = 'order_amount',
                                    aggfunc = 'mean').fillna(0)
    columns_month = df.month.sort_values().astype('str').unique()
    pivoted_amount.columns = columns_month
    print(pivoted_amount.head())
    
    • 这里利用每个用户每个月平均消费金额作为练习。
    pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>1 else 0)
    print(pivoted_purchase.head())
    
    • 再次转换数据,只要有过购买,记为1,反之为0。
    def purchase_return(data):
        status = []
        for i in range(17):
            if data[i] == 1: #如本月消费
                if data[i+1] == 1: #下个月也消费
                    status.append(1) #标记为1
                if data[i+1] == 0: #下个不消费
                    status.append(0) #标记为0
            else:
                status.append(np.NAN)
        status.append(np.NAN)
        return pd.Series(status,index=columns_month)
    pivoted_purchase_return = pivoted_purchase.apply(purchase_return,axis=1)
    print(pivoted_purchase_return.head())
    
    • 创建一个判断函数。data是输入的数据,status是空列表,用来保存用户是否回购的字段。
    • 判断逻辑:如果用户本月进行过消费,且下月消费过,记为1,没有消费过是0。本月若没有进行过消费,为NaN,后续的统计中进行排除。
    df_purchase = (pivoted_purchase_return.sum() / pivoted_purchase_return.count()).reset_index()
    df_purchase.columns = ['Date', 'PurchaseRate'] #重新给列名赋值
    df_purchase['Date'] = df_purchase.Date.astype(str).apply(lambda x:x[:-3]) #获取年月
    
    plt.figure(figsize = (15,5))
    plt.plot(df_purchase.Date, df_purchase.PurchaseRate)
    plt.show()
    
    • 上图可以看出,在初期用户的回购率并不高,1月的回购率只有15%左右,4月份起回购率稳定在30%左右,波动性也较强。
    • 对回购率的分析,再次说明了对于新用户,在其第一次消费后的三个月内是一段重要的时期,需要营销策略积极引导其再次消费及持续消费。
    • 另外,对于有持续消费的老客,也要适时推出反馈老客户的优惠活动,以加强老客的忠诚度。

    小结
    到此用户消费行为周期分析已完成,通过新旧用户消费比,发现CDNOw网站留存用户的效果不高,营运效果不佳,进一步通过用户的复购率和回购率的分析,说明在新用户消费后的三个月是营销的好时段,应做好营销策略引导用户再次消费以及持续消费,也要适当推出优惠活动,保持老用户的支持度。

    到此CDNow网站用户消费行为分析以完成,后续学习更多再来补充!

    相关文章

      网友评论

          本文标题:CDNow网站用户消费行为分析

          本文链接:https://www.haomeiwen.com/subject/pqzyfltx.html